3章評価方法論
AIの利用が拡大するにつれて、悲劇的な問題が発生する可能性も高まります。基盤モデルが登場して間もないにもかかわらず、すでに多くの問題が報告されています。チャットボットに促されて自殺した男性†1の事例、AIがハルシネーションにより生成した偽の証拠†2を弁護士が提出した事例、また、Air CanadaはAIチャットボットが乗客に誤った情報を提供した†3ことで損害賠償を命じられました。AIの出力を品質管理する手段がなければ、多くのアプリケーションにおいて、AIのリスクがメリットを上回る可能性があります。
AIの導入を急ぐ多くのチームは、AIアプリケーションを実現する上での最大のハードルが評価であることにすぐに気づきます。アプリケーションによっては、評価方法の確立が開発作業の大半を占めることもあります†4。
[†4] 2023年12月、OpenAIの共同創業者であるGreg Brockmanは、「驚くほど多くの場合、評価こそが必要なすべてだ」とツイートしました(https://x.com/gdb/status/1733553161884127435)。
評価の重要性と複雑さから、本書では評価に関する章を2つ設けています。本章では、オープンエンドモデルを評価するために用いられるさまざまな評価手法、その仕組み、そして限界について解説します。次の章では、これらの手法を用いてアプリケーションに適したモデルを選択し、アプリケーションを評価するための評価パイプラインを構築する方法に焦点を当てます。
評価についてはそれ専用に章を設けて解説しますが、評価はシステム全体としての考慮事項であり、単独で切り離して考えるべきではありません。評価の目的は、リスクを軽減し、新たな可能性を見出すことです。リスクを軽減するためには、まずシステムが失敗しやすい箇所を特定し、それらを踏まえて評価を設計する必要があります。多くの場合、失敗に対する可視性を高めるために、システム自体の再設計が必要になることもあります。システムがどこで失敗するのかを明確に理解していなければ、どれほど多くの評価指標やツールを用いても、システムを堅牢にすることはできません。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access