第20章. LoRAと拡散器を使った生成画像モデルの調整
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
第19章では、ディフューザーのアイデアと、ディフューザーテクニックでトレーニングされたモデルが、どのようにプロンプトに基づいて画像を生成できるかを探った。テキストベースのモデル(第16章で検討)と同様に、テキストから画像へのモデル 、特定のタスクのために微調整することができる。拡散モデルのアーキテクチャとそれを微調整する方法については、それだけで1冊の本が書けるほどなので、この章では、これらの概念を高いレベルで探求することにしよう。そのためのテクニックはいくつかあり、DreamBooth、テキスト反転、最近の低順位適応 (LoRA)などがある。この最後のテクニックを使えば、わずかなデータで、特定のテーマやスタイルに合わせてモデルをカスタマイズすることができる。
トランスフォーマーと同様に、ディフューザー Hugging Face ライブラリ は、ディフューザーの使用や微調整をできるだけ簡単に行えるように設計されている。そのために、使用可能なビルド済みスクリプトが含まれている。
ここでは、Misatoと呼ばれる架空のデジタルインフルエンサーのデータセットを作成し、LoRAとディフューザーを使用して、Stable Diffusion 2と呼ばれるテキストから画像へのモデルを微調整する完全なサンプルを見ていく。次に、テキストから画像への推論を実行し、美里の新しい画像を作成する方法を示す(図20-1参照)。
図20-1. LoRAで調整された安定拡散2の画像
ディフューザーを使ったLoRAのトレーニング
ディフューザーを使ってLoRAをトレーニングするには、 、以下のステップを実行する必要がある。まず、diffusersのソースコードを入手し、あらかじめ用意されているトレーニングスクリプトにアクセスできるようにする。次に、Stable Diffusionの微調整に使用できるデータセットを入手または作成する。その後、トレーニングスクリプトを実行してモデルの微調整を行い、その微調整をHugging Faceに公開し、LoRAレイヤーを適用したベースモデルに対して推論を実行する。これが終われば、図20-1のような画像を作成できるはずだ。それでは、これらの各ステップを見ていこう。
ディフューザーを入手する
LoRAを使い始めるには、 、まずディフューザーのソースコードをクローンして、トレーニングスクリプトを入手するのが一番だと発見した。
git-cloneして、そのディレクトリに移動し、現在の場所でpip install :
gitclonehttps://github.com/huggingface/diffuserscddiffuserspipinstall.
Colabや他のホストされたノートブックを使っている場合は、このような構文を使う:
!gitclonehttps://github.com/huggingface/diffusers%cddiffusers!pipinstall.
Colabや他のホストされたノートブックを使用している場合は、以下のような構文を使用する。テキストから画像へのLoRA微調整スクリプトは、 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access