7章人間のフィードバックからの強化学習を用いた微調整
5章と6章で学んだように、指示による微調整は、モデルの性能を向上させます。そして、人間らしい指示に対するモデルの理解を高め、より人間らしい応答を生成させることができます。しかし、指示による微調整は、望ましくない応答や誤っている応答、時には有害ですらある応答をモデルが生成するのを完全に防いでくれるわけではありません。
モデルの学習は、インターネット上にある膨大な量のテキストデータを用いて行われています。そのため、好ましくない出力が発生するのは、それほど不思議なことではありません。残念ながら、そうしたテキストデータには、たくさんの下品な言葉や有害なテキストが含まれています。そして研究者や実務家は、不要なデータを削除するために、事前学習用データセットのクリーニングと改良を続けています。それでも、人間の価値観や嗜好に適合しない文書や画像をモデルが生成する可能性は、まだ残っています。
人間のフィードバックからの強化学習(RLHF)は、人間の価値観や嗜好に向けてモデルを調整する際の補助として、人間のアノテーション(人間のフィードバックとも呼ばれる)を利用する、微調整の手法です。RLHFは、指示による微調整を含む他の形式の微調整を行った後に適用されるのが最も一般的です。
RLHFは通常、より人間らしい、かつ人間の一般的な価値観に適合する出力をモデルが生成できるよう支援する目的で利用されます。一方で、RLHFを用いた微調整により、各人向けに高度にパーソナライズされたモデルを作ることもできます。例えば、独自アプリケーションを利用する各ユーザーに特化したチャットアシスタントを作れます。そのようなチャットアシスタントなら、ユーザーとアプリケーションとの間でどのようなやりとりが行われるかに基づいて、それぞれのユーザー向けに口調、(音声対応なら)声の調子、さらにはユーモアのセンスまで、別々のものを選んで使い分けることができます。 ...
Get AWSではじめる生成AI ―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.