13章マルチモーダルモデル

13章の目標
  • マルチモーダルモデルの意味を学ぶ。
  • テキストから画像を生成するOpenAIの大規模モデルであるDALL·E 2の内部の動きを調べる。
  • CLIPと、GLIDEなどの拡散モデルが、DALL·E 2の全体アーキテクチャの中でどのように不可欠な役割を果たしているかを理解する。
  • 著者らが論文で強調しているDALL·E 2の制限を分析する。
  • テキストから画像を生成するGoogle Brainの大規模モデルであるImagenのアーキテクチャを調べる。
  • テキストから画像を生成するオープンソースのモデルStable Diffusionで使われている潜在拡散過程について学ぶ。
  • DALL·E 2、Imagen、およびStable Diffusionの類似点と相違点を理解する。
  • テキストから画像を生成するモデルを評価するベンチマークスイートDrawBenchを調査する。
  • DeepMindの新しい視覚言語モデルFlamingoのアーキテクチャを学ぶ。
  • Flamingoのさまざまな構成要素を紐解き、それらが全体としてモデルにどのように貢献しているかを学ぶ。
  • 会話によるプロンプトを含む、Flamingoのいくつかの機能を調べる。

これまで私たちは、単独のモダリティを持つデータ(テキスト、画像、または音楽)だけに焦点を当てた生成学習問題を分析してきました。GANと拡散モデルがどのように最先端の画像を生成でき、トランスフォーマがどのようにテキストと画像の両方に道を切り開いているかを見てきました。しかし、私たちは人間として、何の困難もなくあるモダリティから別のモダリティに横断することができます。例えば、与えられた写真の中で何が起こっているか説明文を書いたり、本の中の架空のファンタジーの世界を描写するデジタルアートを作成したり、与えられたシーンの感情に映画音楽を合わせたりできます。機械を訓練すれば同じようにできるようになるのでしょうか? ...

Get 生成 Deep Learning 第2版 ―絵を描き、物語や音楽を作り、ゲームをプレイする now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.