Skip to Content
PyTorch によるコーダーのための AI および ML
book

PyTorch によるコーダーのための AI および ML

by Laurence Moroney
July 2025
Intermediate to advanced
444 pages
7h 8m
Japanese
O'Reilly Media, Inc.
Content preview from PyTorch によるコーダーのための AI および ML

第19章. ハギング・フェイス・ディフューザーで生成モデルを使う

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

ここ数章にわたり、我々は 、生成モデルの推論について見てきた。主にLLM(別名テキスト間モデル)を使って様々なシナリオを探ってきた。しかし、生成AIはテキストベースのモデルだけに限定されるものではなく、もう一つの重要な革新は、もちろん画像生成(別名テキストから画像へ)である。今日、ほとんどの画像生成モデルは拡散と呼ばれるプロセスに基づいている。これは、テキストプロンプトから画像を作成するために使用されるHugging Face APIのディフューザーという名前の由来となっている。この章では、ディフュージョンモデルがどのように機能するのか、また、プロンプトから画像を生成できる独自のアプリを立ち上げて実行する方法を探る。

拡散モデルとは何か?

AIが作成した 画像を見たことがある人は多いだろう。抽象化されたラフな表現から、プロンプトで要求されたものをフォトリアルに近い表現に成長させる速さに驚いたことがあるだろう。このモデルは、より長いプロンプトをより詳細に表現することができ、トレーニングセットが成長するにつれて、AI画像生成でできることがほぼ無限に改善されている。

しかし、これらはどのように機能するのだろうか?それは拡散のアイデアから始まる。

このプロセスは、画像とそれに関連するノイズのデータセットを作成することから始めることができる。図19-1を考えてみよう。

図19-1. 画像にノイズを入れる

そして、このようにノイズの多い画像のセットができたら、画像を元の状態に戻すためにどのようにノイズ除去するかを学習するモデルを訓練することができる。ノイズをデータ、元の画像をラベルと考える。つまり、図19-1の場合、右側のノイズがデータ、子犬の画像がラベルとなる。この点で、ノイズを見たときに、そのノイズを画像に変換する方法を見つけ出すモデルを訓練することができる。論理的な拡張としては、ノイズを発生させれば、モデルはそのノイズをトレーニングセットにある画像に少し似た画像に変える方法を見つけ出すということだ。

しかし、ノイズ画像を作成するステップ( )に戻り、そこに非常に冗長な説明のテキストを追加したらどうなるだろうか?すると、ノイズ画像にテキスト・ラベル(埋め込みで表現)が付加される(図19-2参照)!

図19-2. 拡散処理にテキストエンコーディングを追加する

さて、ノイズ画像にはそれを説明する埋め込みが付加されている。簡単に言えば、ノイズの一部はそれを記述する埋め込みによって強調されるので、この画像を元の子犬の画像に戻すノイズ除去処理には、どのようにノイズ除去を行うかの指針となるデータが追加される。つまり、ノイズ+埋め込みをデータ、元の画像をラベルとしてモデルを訓練すれば、ノイズ+埋め込みを画像に変換する方法を、より効果的に学習できるようになる。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする

David Foster, 松田 晃一, 小沼 千絵
ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

ダイナミックリチーミング 第2版 ―5つのパターンによる効果的なチーム編成

Heidi Helfand, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 細澤 あゆみ

Publisher Resources

ISBN: 9798341662636