
回帰層の出力は、0から1 の範囲に正規化されたスコアです。回帰層は、出力が一つで
sigmoid
関数を活性化関数とするFFNN(Feed-Forward Neural Network)で構成されること
が一般的です。また、回帰層の入力として、特定のトークンの埋め込みベクトル、またはトー
クン列全体の平均、またはプーリングされた埋め込みベクトルが使用されることがあります。
なお、プーリングとは、複数のトークンの埋め込みベクトルから重要な情報を抽出し、固定長
のベクトルに集約する手法です。主なプーリング手法には、平均プーリングと最大値プーリン
グがあります。FFNNに関しては 1.3.4 の説明も参考にしてください。
報酬モデルの学習の手順は次のとおりです。
1. データ収集:同じプロンプトに対する複数の応答を生成し、人間の評価者がランク付け
2. ペアワイズランキング学習:ランク付けされたデータを使用して学習
以降、本項では、データの収集とペアワイズランキング学習について詳しく説明します。
データ収集
報酬モデルの学習では、人間の評価者によるランク付けされたデータを使用します。ここで
は、ChatGPTの基盤技術となったInstructGPT[Ouyang et al. 2022] のデータ収集プロセスを
例に説明します。
InstructGPTでは、LLM APIを介してユーザが与えたプロンプトを収集し、そのプロンプ
トに対する複数の応答を生成します。使用されたプロンプトを引用すると、例えば、次のよう
なものが挙げられます。 ...