book

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

Name: AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践
ISBN: 9784814401383

by Chip Huyen, 加賀谷諒, 菅野憲也

November 2025

Intermediate to advanced

544 pages

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　表紙
　大扉
　原書大扉
　クレジット
　訳者まえがき
　推薦の言葉
　まえがき
　　　『機械学習システムデザイン』（DMLS）と『AIエンジニアリング』（AIE）の読み方
　1章　基盤モデルを用いたAIアプリケーション開発入門
　　1.1　AIエンジニアリングの台頭　　　1.1.1　言語モデルから大規模言語モデルへ　　　1.1.2　大規模言語モデルから基盤モデルへ　　　1.1.3　基盤モデルからAIエンジニアリングへ　　　なぜ「AIエンジニアリング」という用語を使うのか？　　1.2　基盤モデルのユースケース　　　1.2.1　コーディング　　　1.2.2　画像・動画制作　　　1.2.3　文章作成　　　1.2.4　教育　　　1.2.5　会話ボット　　　1.2.6　情報の集約　　　1.2.7　データの整理　　　1.2.8　ワークフローの自動化　　1.3　AIアプリケーションの計画　　　1.3.1　ユースケースの評価　　　1.3.2　期待値の設定　　　1.3.3　マイルストーン計画　　　1.3.4　メンテナンス　　1.4　AIエンジニアリングスタック　　　1.4.1　AIスタックの3つのレイヤー　　　1.4.2　AIエンジニアリングとMLエンジニアリングの違い　　　学習、事前学習、ファインチューニング、事後学習の違いについて　　　1.4.3　AIエンジニアリング vs フルスタックエンジニアリング　　1.5　まとめ
　2章　基盤モデルを理解する
　　2.1　学習データ　　　2.1.1　多言語モデル　　　2.1.2　ドメイン特化モデル　　2.2　モデリング　　　2.2.1　モデルアーキテクチャ　　　2.2.2　モデルサイズ　　　逆スケーリング　　　パラメータとハイパーパラメータ　　2.3　事後学習　　　2.3.1　教師ありファインチューニング　　　2.3.2　選好ファインチューニング　　2.4　サンプリング　　　2.4.1　サンプリングの基礎　　　2.4.2　サンプリング戦略　　　2.4.3　テスト時計算　　　2.4.4　構造化出力　　　2.4.5　AIの確率論的性質　　2.5　まとめ
　3章　評価方法論
　　3.1　基盤モデルを評価する上での課題　　3.2　言語モデリングの指標を理解する　　　3.2.1　エントロピー　　　3.2.2　クロスエントロピー　　　3.2.3　BPC（Bits-per-Character）とBPB（Bits-per-Byte）　　　3.2.4　パープレキシティ　　　3.2.5　パープレキシティの解釈とユースケース　　　言語モデルを使用してテキストのパープレキシティを計算する方法　　3.3　厳密な評価　　　3.3.1　機能正確性　　　3.3.2　参照データとの類似度測定　　　3.3.3　埋め込み入門　　3.4　AI as a Judge　　　3.4.1　なぜAI as a Judgeか？　　　3.4.2　AI as a Judgeの使い方　　　3.4.3　AI as a Judgeの限界　　　3.4.4　どのようなモデルが評価者として機能できるか？　　3.5　比較評価によるモデルのランキング　　　3.5.1　比較評価の課題　　　3.5.2　比較評価の未来　　3.6　まとめ

　4章　AIシステムの評価
　　4.1　評価基準　　　評価駆動開発　　　4.1.1　ドメイン固有の能力　　　4.1.2　生成能力　　　4.1.3　指示追従能力　　　4.1.4　コストとレイテンシー　　4.2　モデル選定　　　4.2.1　モデル選定のワークフロー　　　4.2.2　自社で作るか外部から購入するか　　　4.2.3　公開ベンチマークの見方　　　OpenAIのモデルは劣化しているのか？　　4.3　評価パイプラインの設計　　　4.3.1　ステップ1：システム内のすべてのコンポーネントを評価する　　　4.3.2　ステップ2：評価ガイドラインを作成する　　　4.3.3　ステップ3：評価手法とデータを定義する　　4.4　まとめ
　5章　プロンプトエンジニアリング
　　5.1　プロンプト入門　　　5.1.1　コンテキスト内学習：Zero-shotとFew-shot　　　用語の曖昧さ：プロンプトとコンテキスト　　　5.1.2　システムプロンプトとユーザープロンプト　　　5.1.3　コンテキスト長とコンテキスト効率　　5.2　プロンプトエンジニアリングのベストプラクティス　　　5.2.1　明確で具体的な指示を書く　　　5.2.2　十分なコンテキストを提供する　　　モデルの知識をコンテキストのみに限定する方法　　　5.2.3　複雑なタスクをより単純なサブタスクに分割する　　　5.2.4　モデルに考える時間を与える　　　5.2.5　プロンプトを反復的に改善する　　　5.2.6　プロンプトエンジニアリングツールを評価する　　　5.2.7　プロンプトの整理とバージョン管理　　5.3　防御的プロンプトエンジニアリング　　　5.3.1　プロプライエタリなプロンプトとリバースプロンプトエンジニアリング　　　5.3.2　ジェイルブレイクとプロンプトインジェクション　　　5.3.3　情報抽出　　　5.3.4　プロンプト攻撃に対する防御策　　5.4　まとめ
　6章　RAGとエージェント
　　6.1　RAG　　　6.1.1　RAGアーキテクチャ　　　6.1.2　検索アルゴリズム　　　スパース検索 vs デンス検索　　　6.1.3　検索最適化　　　検索ソリューションの評価　　　6.1.4　テキスト以外のRAG　　6.2　エージェント　　　6.2.1　エージェントの概要　　　6.2.2　ツール　　　6.2.3　プランニング　　　基盤モデル（FM）プランナー vs 強化学習（RL）プランナー　　　6.2.4　エージェントの失敗パターンと評価　　6.3　記憶　　6.4　まとめ
　7章　ファインチューニング
　　7.1　ファインチューニングの概要　　7.2　いつファインチューニングするのか　　　7.2.1　ファインチューニングする理由　　　7.2.2　ファインチューニングしない理由　　　ドメイン特化タスクのファインチューニング　　　7.2.3　ファインチューニングとRAG　　7.3　メモリのボトルネック　　　メモリのボトルネックを理解するための要点　　　7.3.1　誤差逆伝播法と訓練可能パラメータ　　　7.3.2　メモリ計算　　　7.3.3　数値表現　　　7.3.4　量子化　　　量子化と精度削減　　7.4　ファインチューニングのテクニック　　　7.4.1　PEFT - パラメータ効率の良いファインチューニング　　　7.4.2　モデルマージとマルチタスクファインチューニング　　　7.4.3　ファインチューニングの戦術　　7.5　まとめ
　8章　データセットエンジニアリング
　　　データ中心AIという視点　　8.1　データキュレーション　　　8.1.1　データ品質　　　8.1.2　データカバレッジ　　　8.1.3　データ量　　　8.1.4　データの取得とアノテーション　　　公開データセットの入手先リソース　　8.2　データ拡張とデータ合成　　　8.2.1　なぜデータ合成をするのか　　　8.2.2　従来のデータ合成技術　　　8.2.3　AIを利用したデータ合成　　　8.2.4　モデル蒸留　　8.3　データ処理　　　8.3.1　データの検査　　　8.3.2　データの重複排除　　　8.3.3　データのクリーニングとフィルタリング　　　8.3.4　データのフォーマット　　8.4　まとめ
　9章　推論の最適化
　　9.1　推論の最適化を理解する　　　9.1.1　推論の概要　　　用語の曖昧さ：メモリバウンド対帯域幅バウンド　　　9.1.2　推論パフォーマンスのメトリクス　　　9.1.3　AIアクセラレーター　　　アクセラレーターの選択　　9.2　推論の最適化　　　9.2.1　モデルの最適化　　　KVキャッシュサイズの計算　　　PyTorchにおける推論最適化のケーススタディ　　　9.2.2　推論サービスの最適化　　9.3　まとめ
　10章　AIエンジニアリングのアーキテクチャとユーザーフィードバック
　　10.1　AIエンジニアリングアーキテクチャ　　　10.1.1　ステップ1：コンテキストの強化　　　10.1.2　ステップ2：ガードレールの設置　　　10.1.3　ステップ3：モデルルーターとゲートウェイの追加　　　10.1.4　ステップ4：キャッシュによるレイテンシーの削減　　　10.1.5　ステップ5：エージェントパターンの追加　　　10.1.6　モニタリングとオブザーバビリティ　　　モニタリング vs オブザーバビリティ　　　10.1.7　AIパイプラインのオーケストレーション　　10.2　ユーザーフィードバック　　　10.2.1　会話フィードバックの抽出　　　10.2.2　フィードバック設計　　　10.2.3　フィードバックの限界　　10.3　まとめ
　エピローグ
　著者紹介
　奥付

Content preview from AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

4章AIシステムの評価

モデルは意図した目的を果たして初めて有用となります。そのため、実際のアプリケーションでの用途を踏まえてモデルを評価する必要があります。3章では、自動評価のさまざまなアプローチについて説明しました。本章では、それらのアプローチを用いてアプリケーションのためにモデルを評価する方法について説明します。

この章は3つのパートで構成されています。まず、アプリケーションを評価するための評価基準と、それらの基準がどのように定義・計算されるかについて説明します。例えば、多くの人がAIによる事実の捏造を懸念していますが、事実整合性はどのように検出されるのでしょうか？数学、科学、推論、要約などのドメイン固有の能力はどのように測定されるのでしょうか？

2番目のパートでは、モデルの選択に焦点を当てます。選択肢となる基盤モデルの数が増え続ける中で、自身のアプリケーションに適したモデルを選ぶのは大変な作業に思われるかもしれません。これらのモデルをさまざまな基準で評価するために、何千ものベンチマークが登場してきました。これらのベンチマークは信頼できるのでしょうか？どのベンチマークを選べば良いのでしょうか？複数のベンチマーク結果を集約した公開リーダーボードについてはどのように考えるのが良いのでしょうか？

モデル開発の現場は、プロプライエタリモデルとオープンソースモデルで溢れかえっています。多くのチームが「自社でモデルをホストするか、それともモデルAPIを利用するか」という問いに、繰り返し向き合うことになります。オープンソースモデルを基盤とするモデルAPIサービスの登場により、この選択はさらに難しくなっています。

最後のパートでは、アプリケーション開発の継続的な指針となる評価パイプラインの開発について説明します。このパートでは、本書全体で学んだテクニックを総動員して、具体的なアプリケーションを評価していきます。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784814401383Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

by Chip Huyen, 加賀谷諒, 菅野憲也

4章AIシステムの評価

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.