4章AIシステムの評価
モデルは意図した目的を果たして初めて有用となります。そのため、実際のアプリケーションでの用途を踏まえてモデルを評価する必要があります。3章では、自動評価のさまざまなアプローチについて説明しました。本章では、それらのアプローチを用いてアプリケーションのためにモデルを評価する方法について説明します。
この章は3つのパートで構成されています。まず、アプリケーションを評価するための評価基準と、それらの基準がどのように定義・計算されるかについて説明します。例えば、多くの人がAIによる事実の捏造を懸念していますが、事実整合性はどのように検出されるのでしょうか? 数学、科学、推論、要約などのドメイン固有の能力はどのように測定されるのでしょうか?
2番目のパートでは、モデルの選択に焦点を当てます。選択肢となる基盤モデルの数が増え続ける中で、自身のアプリケーションに適したモデルを選ぶのは大変な作業に思われるかもしれません。これらのモデルをさまざまな基準で評価するために、何千ものベンチマークが登場してきました。これらのベンチマークは信頼できるのでしょうか? どのベンチマークを選べば良いのでしょうか? 複数のベンチマーク結果を集約した公開リーダーボードについてはどのように考えるのが良いのでしょうか?
モデル開発の現場は、プロプライエタリモデルとオープンソースモデルで溢れかえっています。多くのチームが「自社でモデルをホストするか、それともモデルAPIを利用するか」という問いに、繰り返し向き合うことになります。オープンソースモデルを基盤とするモデルAPIサービスの登場により、この選択はさらに難しくなっています。
最後のパートでは、アプリケーション開発の継続的な指針となる評価パイプラインの開発について説明します。このパートでは、本書全体で学んだテクニックを総動員して、具体的なアプリケーションを評価していきます。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access