5章微調整と評価

4章では、大規模言語モデルの性能向上につながる様々なテクニックを学びました。また、分散コンピューティング用複数インスタンス全体へ、大規模モデルの開発作業をスケールするために、分散データ並列(DDP)や完全シャード化データ並列(FSDP)といった効率的な分散コンピューティング戦略について学びました。これらのテクニックは、大規模基盤モデルでゼロから事前学習を行う際に不可欠ですが、それに加えて、微調整(fine-tuning)と呼ばれるプロセスにおいても、基盤モデルを独自のデータセットやユースケースに適合させる場合に役立ちます。

この章では、「指示による微調整」と呼ばれる微調整テクニックを深く掘り下げます。指示については、2章でのプロンプトエンジニアリングに関する考察で既に学びました。指示とは、「この会話を要約しなさい」や「パーソナライズされたマーケティングメールを生成しなさい」等のタスクを実行させるための、モデルへの命令です。基盤モデルを指示によって微調整する場合、汎用的な生成AIとして機能する能力を基盤モデルに維持させるには、様々な異なるタスクにわたる複数の指示を、混在させた状態でモデルに提示することが重要です。

この章では、多様なタスクにわたり、指示による微調整の効果を計測するのに役立つ様々な評価用のメトリクス(metrics:指標)とベンチマーク(benchmark:比較基準)について学びます。ベースライン†1となる評価メトリクスを複数設定し、微調整の前後でモデルが生成した出力を比較することを推奨します。そうしたフィードバックループは、モデルの開発と調整を行う反復的な段階ではとても重要です。

[†1] 訳注:ベースライン(baseline)は、実験の効果を計測するために実験後のデータと比較する基準として用いる、実験の影響が及んでいないデータ。 ...

Get AWSではじめる生成AI ―RAGアプリケーション開発から、基盤モデルの微調整、マルチモーダルAI活用までを試して学ぶ now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.