
1
1.2
色々なLLM
LLMの基本的な処理は、先行するトークンを入力として受け取り、次のトークンを出力す
ることです。これを繰り返すことで、より長い文章やテキストを生成します。大規模なテキス
トデータセットを用いて、LLM は次のトークンを予測できるように事前学習されます。この
事前学習を経たモデルを、事前学習済み言語モデル(Pre-trained Model)と呼びます。事前
学習済み言語モデルは、ファインチューニングと呼ばれる手法を用いて、特定のタスクに適応
させることができます。事前学習済み言語モデルをベースとし、ファインチューニングを行う
ことで、さらに実用的な応用が可能になります。事前学習済み言語モデルをファインチューニ
ングして得られるモデルとして次のようなLLM があります。
対話型(Conversational)LLM
マルチモーダル(Multimodal)LLM
対話型LLM は、人との会話を想定したLLM のことです。対話型LLMは、事前学習済みの
大規模言語モデルに対して会話データを用いてファインチューニングを行うことで実現されま
す。対話型LLM は、主にユーザとアシスタントの過去のやり取りを含む会話履歴を入力とし
て受け取り、適切な応答を生成します。
マルチモーダルLLMは、テキスト以外の情報(画像、音声、動画など)を含む複数のモダリ
ティを扱うLLM のことです。マルチモーダルLLMは、テキストと画像、テキストと音声な
どの異なるモダリティを組み合わせて処理することができます。 ...