Skip to Content
AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践
book

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

by Chip Huyen, 加賀谷 諒, 菅野 憲也
November 2025
Intermediate to advanced
544 pages
9h
Japanese
O'Reilly Japan, Inc.
Content preview from AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

4章AIシステムの評価

モデルは意図した目的を果たして初めて有用となります。そのため、実際のアプリケーションでの用途を踏まえてモデルを評価する必要があります。3章では、自動評価のさまざまなアプローチについて説明しました。本章では、それらのアプローチを用いてアプリケーションのためにモデルを評価する方法について説明します。

この章は3つのパートで構成されています。まず、アプリケーションを評価するための評価基準と、それらの基準がどのように定義・計算されるかについて説明します。例えば、多くの人がAIによる事実の捏造を懸念していますが、事実整合性はどのように検出されるのでしょうか? 数学、科学、推論、要約などのドメイン固有の能力はどのように測定されるのでしょうか?

2番目のパートでは、モデルの選択に焦点を当てます。選択肢となる基盤モデルの数が増え続ける中で、自身のアプリケーションに適したモデルを選ぶのは大変な作業に思われるかもしれません。これらのモデルをさまざまな基準で評価するために、何千ものベンチマークが登場してきました。これらのベンチマークは信頼できるのでしょうか? どのベンチマークを選べば良いのでしょうか? 複数のベンチマーク結果を集約した公開リーダーボードについてはどのように考えるのが良いのでしょうか?

モデル開発の現場は、プロプライエタリモデルとオープンソースモデルで溢れかえっています。多くのチームが「自社でモデルをホストするか、それともモデルAPIを利用するか」という問いに、繰り返し向き合うことになります。オープンソースモデルを基盤とするモデルAPIサービスの登場により、この選択はさらに難しくなっています。

最後のパートでは、アプリケーション開発の継続的な指針となる評価パイプラインの開発について説明します。このパートでは、本書全体で学んだテクニックを総動員して、具体的なアプリケーションを評価していきます。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する

Stephen Wendel, 武山 政直, 相島 雅樹, 反中 望, 松村 草也
生成AI時代の価値のつくりかた ―実践者のマインド、スキル、データ、ユースケース

生成AI時代の価値のつくりかた ―実践者のマインド、スキル、データ、ユースケース

Rob Thomas, Paul Zikopoulos, Kate Soule, 本多 真二郎, オライリー・ジャパン編集部

Publisher Resources

ISBN: 9784814401383Publisher Website