11章Stable Diffusionによる生成の制御と微調整

生成の制御は活発な研究分野で、この分野の最先端テクニックは、ほとんどがつい最近世に出たばかりのものです。そうしたテクニックが目標とするのは、エッジ(edge:輪郭)検出やセグメンテーションマップ†1のような一般的画像タスクをさらに効果的に処理できるように、拡散モデルを拡張することです。そのようなテクニックを用いると、画像生成をきめ細かく制御できるようになります。

[†1] 訳注:セグメンテーションマップ(segmentation map)は、セマンティックマップ同様のマスク画像で、画像内で複数の異なる要素が占める領域を別々の色で塗り分けたもの。

この章では、Stable Diffusionのようなモデル向けに、テキストからの画像生成を拡張し改善する、ControlNetという強力なテクニックを学びます。さらに、DreamBooth等のツールによるマルチモーダル微調整、テキスト反転等のアルゴリズム、パラメーター効率的微調整(PEFT)等の最適化について探ります。最後に、マルチモーダルモデルに対して人間の嗜好(有用性、誠実性、無害性[HHH])への適合を行うために、人間のフィードバックからの強化学習(RLHF)を再検討します。

11.1 ControlNet

2023年の論文†2で説明されているControlNetは、画像ベースの生成タスクを改善する各種制御モデルの学習を行うために広く利用されている方法です。ControlNetは、Stable Diffusion等の拡散モデルと組み合わさって動作する、深層ニューラルネットワークです。

[†2] Lvmin Zhang et al., “Adding Conditional ...

Get AWSではじめる生成AI ―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.