
1
入力のエンコード
マルチモーダルLLMへの入力は、複数のモダリティ(形式)を含むことができます。これら
の入力は、それぞれ専用のエンコーダを用いてTransformer で扱えるトークン列に変換されま
す。
テキスト入力のエンコードは、通常の対話型LLMと同様にトークナイザを用いて行われま
す。トークナイザはテキストをトークン列に変換し、役割情報や発言の区切りを表す特殊トー
クンを追加します。本例でのプロンプトは次のようなトークン列に変換されます。
['<|begin_of_text|>', '<|start_header_id|>', 'user', '<|end_header_id|>', 'こんにちは',
'。', '<|eot_id|>', '<|start_header_id|>', 'assistant', '<|end_header_id|>', '何かお役に
立てることはありますか', '?', '<|eot_id|>', '<|start_header_id|>', 'user', '<|end_
header_id|>', 'この画像と似た画像を異なる果物で作成してください', '。']
このトークン列への変換は、対話型LLM の場合と同様に行われます。
画像入力のエンコードは、ImageBind のようなモデルを用いて行われます。ImageBind は、
画像を固定長のベクトル表現に変換します。このベクトル表現は、さらにプロジェクション層
を通して、Transformer ...