
ついては1.3.3 で詳しく説明します。また、画像から生成されたトークン埋め込みベクトル
は、埋め込み層を通過した後のトークン列に直接統合されます。
本例ではテキストと画像のエンコードを説明しましたが、音声や動画についても同様の手順
でエンコードされます。音声入力のエンコードは、AudioLDMのようなモデルを用いて行わ
れます。AudioLDMは、音声信号をメルスペクトログラム(音声特徴量)に変換し、それを離
散的な音声トークンに量子化します。これらの音声トークンは、Transformer が入力できる
トークン埋め込みベクトルの列に変換されます。また、動画入力のエンコードは、Zeroscope
のようなモデルを用いて行われます。Zeroscopeは動画をフレームに分割し、各フレームを画
像として扱います。これらの画像は、ImageBindと同様の方法でトークン埋め込みベクトルの
列に変換されます。
Transformer による次のトークンの予測
Transformerは、エンコードされたトークン列を入力として受け取り、次のトークン列を予
測します。この処理は通常のLLMと同様に行われます。Transformerは、入力トークン列の
文脈を考慮しながら、次のトークンの確率分布を生成します。
マルチモーダルLLM では、出力されるトークン列にテキストだけでなく画像、音声、動画
などを表す特殊トークンが含まれる可能性があります。図1.2.6の例では、Transformerはテ
キストと画像の文脈を考慮しながらアシスタントの応答を生成します。生成されたトークン列 ...