10章マルチモーダル基盤モデル

生成AIには、ユニモーダル(unimodal)なものとマルチモーダル(multimodal)なものがあります。ユニモーダルなモデルは、テキスト等、1つのモダリティのデータのみで動作します。大規模言語モデル(LLM)のうち学習にテキストのみを用いたモデルは、ユニモーダル生成AIの一般的な例です。プロンプトと応答について、入力も出力も、モダリティはどちらもテキストとなっています。それに対し、扱う対象に画像、動画、音声等、別のモダリティが混ざってくると、マルチモーダル生成AIの出番となります。

マルチモーダル生成AIを用いて、モデルの文脈理解とクロスモーダル(cross-modal:異種モダリティ間)学習を強化すれば、ユースケースとタスクの範囲を広げられます。マルチモーダル生成AIは、汎用人工知能(artificial general intelligence/AGI)や、現実世界並みの複雑性をシミュレーションするという目標へ向けた、第一歩なのです。言い換えれば、モデルが多様なデータ形式を処理できるだけではなく、転移学習†1によって創造的な問題解決を行えるようになっていることが将来の目標です。

[†1] 訳注:転移学習(transfer learning)は、あるタスクで得た知識を別の似たタスク向けに転移させ再利用して、別のタスクもこなせるようにする、機械学習の手法。

マルチモーダルAIでは、様々なモダリティのコンテンツを入力として与えます。画像をテキストに変換するタスクや、テキストを画像に変換するタスクがサポートされています。図10-1は、ユニモーダル生成AIとマルチモーダル生成AIの違いを示しています。

この章では、マルチモーダル生成AIのユースケースとタスクの紹介から始めます。Stable ...

Get AWSではじめる生成AI ―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.