
LLMの学習の概要
2.1
LLMに性能を発揮させるためには、適切なパラメータを設定することが不可欠です。LLM
のパラメータを決めるのは、学習(Training)と呼ばれるプロセスです。LLMのパラメータは
複数の学習手法を経て最終的な値が決まります。本節では個々の学習手法にはどのようなもの
があるか、またそれらの違いと共通点について説明します。
2.1.1
学習手法の種類
LLMの最終的なパラメータの値は、様々な学習手法を順番に適用することで決定されます。
大まかなLLM の学習の流れを図 2.1.1 に示します。図2.1.1 中では四角形の箱が学習手法を
表します。
事前学習(Pre-training)では、大規模なテキストデータを用いてモデルが一般的な言語を
理解する能力を獲得します。指示チューニング(Instruction Tuning)では、モデルに特定の
指示や命令に従って応答する能力を与えます。RLHF(Reinforcement Learning from
Human Feedback)では人間のフィードバックを活用し、人間の好みに合う応答を生成でき
るようにモデルのパラメータを調整します。指示チューニングとRLHFは、LLM の性能をさ
らに向上させるためのファインチューニング手法です。ファインチューニングとは、事前学習
済みモデルのパラメータを特定のタスクに合わせて追加学習により微調整することです。一
方、事前学習では、ランダムに初期化されたパラメータから学習を始めます。
...