
指示チューニング(Instruction Tuning)
2.3
指示チューニング[Wei, Bosma, et al. 2022] は、特定の指示や命令に従って応答する能力を
言語モデルに与えるためのファインチューニング手法です。指示チューニングは、多様な指示
と応答ペアを用いてモデルを追加学習することで実現されます。指示チューニングでは、構造
化されたデータセットを用いてモデルの学習を行います。例えば、指示、付加的な入力、期待
される出力から構成された次のようなデータがデータセットに含まれます。
指示:「この文章を日本語に翻訳してください。」
入力:「The weather is nice today.」
出力:「今日は良い天気です。」
指示:「次の数列の次の数を予測してください。」
入力:「2, 4, 6, 8, ...」
出力:「次の数は10です。この数列は2ずつ増加しているため、8の次は10になります。」
指示チューニングで使用する損失関数は、通常の事前学習と同様の交差エントロピー損失関
数です。モデルは、与えられた指示と入力(存在する場合)に基づいて適切な応答を生成する
ことを学習します。交差エントロピー損失関数を用いることで、モデルの生成した応答と期待
される出力との差異を最小化するように学習します。
指示チューニングは、会話型AI の基本的な指示追従能力を向上させる重要な手法です。し
かし、より複雑な人間の好みや倫理的考慮を組み込むためには、別の手法も必要です。次節で
は、そのような高度なファインチューニング手法の一つである ...