第6章 信頼性の向上 信頼性の向上
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
基盤モデルは 、本質的に確率的である。つまり、それらはランダム変数や確率を含んでいる。その結果、これらのモデルの上に構築されたGenAIアプリケーションは、一貫性のない出力、事実の不正確さ、ハルシネーションに悩まされる可能性がある。この章では、これらの課題を緩和するための4つのパターンを紹介する。
審査員としてのLLM(パターン17)は、LLMを、プロンプトを通じて直接、またはML/ファインチューニングモデルを通じて採用することで、出力の系統的評価を容易にし、品質を評価する。Reflection(パターン18)は、モデルが自身の作業を批評し、生成されたコンテンツを反復的に改良することを可能にする。依存関係注入(パターン19)は、構成要素のモックを可能にすることで、テスト容易性と堅牢性を促進する。最後に、プロンプト最適化(パターン20)は、入力プロンプトを改良するための構造化出力を提供し、多様な入力分布における出力の信頼性を最大化する。
これらのパターンを組み合わせることで、GenAIアプリケーションの依存関係を強化するフレームワークが形成される。評価、自己修正、不確実性の定量化、モジュール性の設計、および入力の最適化のメカニズムを統合することで、より信頼性の高いシステムを構築し、AIアプリケーションによって生成された出力に対するユーザの信頼性を高めることができる。
パターン17:審査員としてのLLM
LLM-as-Judgeパターンは、 、モデルを比較し、改善を追跡し、さらなる開発を導くために使うことができる、詳細で多次元的なフィードバックを提供する方法である。LLM-as-Judgeは完全に自動化された評価基準と人間の評価との間の有望な中間領域を示しており、GenAIシステムに対してスケーラブルでありながらニュアンスのある評価機能を提供する。
問題点
本書( )で取り上げたパターンの多くは、評価ステップを組み込んでいる。例えば、コンテンツ最適化(パターン5)では、2つのコンテンツを比較する。ノードの後処理(パターン10)では、検索されたチャンクの関連性をランク付けする。思考の木(パターン14)では、パスを評価し、最も有望なものを選ぶ。Evol-Instruct(パターン16)では、例を評価し、データセットを破壊するような例を削除する。
効果的な評価は、GenAIを効果的に使うための基本である。モデルの改善と改良を促すフィードバックループを提供する。堅牢性評価なしには、AIの出力があなたの基準や要件を満たしているかどうかを判断することは難しい。信頼できる評価メソッドは、システムの能力と限界を評価することで、ユーザのAIシステムに対する信頼性を高める。適切な評価は、モデルをデプロイする前に、潜在的なバイアス、不正確さ、または有害な出力を特定するのに役立つ。
しかし、GenAIシステムの能力を評価することは、そのタスクがオープンエンドであるため、しばしば困難である。ネズミ捕りの性能を評価するのは比較的簡単で、何匹のネズミを捕まえたかをカウントするだけだが、マーケティングコンテンツを評価するのは難しい:
- 成果測定
企業における評価のゴールドスタンダードは、成果を測定することである。理想的には、あるマーケティング・パンフレットがどの程度優れているかは、そのパンフレットが牽引した売上の伸びを測定することでわかるだろう。しかし、売上増加の属性はさまざまである。同じ顧客や同じ日は2つとないため、1つのマーケティング・コンテンツによって売上高がどれだけ変化したかを言うのは難しい。そのため、エンゲージメントのような ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access