
終了トークンとして
<|eot_id|>
が加わっている点のみ、事前学習済み言語モデルの場合と
異なっています。
生成されたトークン列のデコード
生成されたトークン列はトークナイザによってデコードされ、テキストに変換されます。生
成されたトークン列には特殊トークンが含まれているため、これらを適切に処理する必要があ
ります。特殊トークンの種類が増えていることを除き、生成されたトークン列のデコードは、
事前学習済み言語モデルと概ね同じです。
対話型LLMの API(Application Programming Interface)では、デコードしたテキストを
APIが定めるメッセージの形式で出力します。メッセージの構造を表す
<|start_header_
id|>
、
<|end_header_id|>
、
<|eot_id|>
などの特殊トークンをヒントに応答メッセージを作成
します。
1.2.3
マルチモーダルLLM
マルチモーダルLLMは、複数のモダリティ(形式)を扱えるようにした大規模言語モデルの
ことです。GPT-4oや NeXT-GPT、LLava、VideoPoet、Macaw-LLMなどがマルチモーダル
LLMの例です。マルチモーダル LLM は様々な形式のデータを入力として受け取り、それらを
統合的に処理することができます。
図1.2.5 に、マルチモーダルLLM の概念的な構成を示します。マルチモーダルLLMの入力
はテキスト、画像、音声、動画など、複数のモダリティを含むことができます。
これらの入力データは、それぞれ専用のエンコーダを用いて ...