book

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

Name: AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践
ISBN: 9784814401383

by Chip Huyen, 加賀谷諒, 菅野憲也

November 2025

Intermediate to advanced

544 pages

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　表紙
　大扉
　原書大扉
　クレジット
　訳者まえがき
　推薦の言葉
　まえがき
　　　『機械学習システムデザイン』（DMLS）と『AIエンジニアリング』（AIE）の読み方
　1章　基盤モデルを用いたAIアプリケーション開発入門
　　1.1　AIエンジニアリングの台頭　　　1.1.1　言語モデルから大規模言語モデルへ　　　1.1.2　大規模言語モデルから基盤モデルへ　　　1.1.3　基盤モデルからAIエンジニアリングへ　　　なぜ「AIエンジニアリング」という用語を使うのか？　　1.2　基盤モデルのユースケース　　　1.2.1　コーディング　　　1.2.2　画像・動画制作　　　1.2.3　文章作成　　　1.2.4　教育　　　1.2.5　会話ボット　　　1.2.6　情報の集約　　　1.2.7　データの整理　　　1.2.8　ワークフローの自動化　　1.3　AIアプリケーションの計画　　　1.3.1　ユースケースの評価　　　1.3.2　期待値の設定　　　1.3.3　マイルストーン計画　　　1.3.4　メンテナンス　　1.4　AIエンジニアリングスタック　　　1.4.1　AIスタックの3つのレイヤー　　　1.4.2　AIエンジニアリングとMLエンジニアリングの違い　　　学習、事前学習、ファインチューニング、事後学習の違いについて　　　1.4.3　AIエンジニアリング vs フルスタックエンジニアリング　　1.5　まとめ
　2章　基盤モデルを理解する
　　2.1　学習データ　　　2.1.1　多言語モデル　　　2.1.2　ドメイン特化モデル　　2.2　モデリング　　　2.2.1　モデルアーキテクチャ　　　2.2.2　モデルサイズ　　　逆スケーリング　　　パラメータとハイパーパラメータ　　2.3　事後学習　　　2.3.1　教師ありファインチューニング　　　2.3.2　選好ファインチューニング　　2.4　サンプリング　　　2.4.1　サンプリングの基礎　　　2.4.2　サンプリング戦略　　　2.4.3　テスト時計算　　　2.4.4　構造化出力　　　2.4.5　AIの確率論的性質　　2.5　まとめ
　3章　評価方法論
　　3.1　基盤モデルを評価する上での課題　　3.2　言語モデリングの指標を理解する　　　3.2.1　エントロピー　　　3.2.2　クロスエントロピー　　　3.2.3　BPC（Bits-per-Character）とBPB（Bits-per-Byte）　　　3.2.4　パープレキシティ　　　3.2.5　パープレキシティの解釈とユースケース　　　言語モデルを使用してテキストのパープレキシティを計算する方法　　3.3　厳密な評価　　　3.3.1　機能正確性　　　3.3.2　参照データとの類似度測定　　　3.3.3　埋め込み入門　　3.4　AI as a Judge　　　3.4.1　なぜAI as a Judgeか？　　　3.4.2　AI as a Judgeの使い方　　　3.4.3　AI as a Judgeの限界　　　3.4.4　どのようなモデルが評価者として機能できるか？　　3.5　比較評価によるモデルのランキング　　　3.5.1　比較評価の課題　　　3.5.2　比較評価の未来　　3.6　まとめ

　4章　AIシステムの評価
　　4.1　評価基準　　　評価駆動開発　　　4.1.1　ドメイン固有の能力　　　4.1.2　生成能力　　　4.1.3　指示追従能力　　　4.1.4　コストとレイテンシー　　4.2　モデル選定　　　4.2.1　モデル選定のワークフロー　　　4.2.2　自社で作るか外部から購入するか　　　4.2.3　公開ベンチマークの見方　　　OpenAIのモデルは劣化しているのか？　　4.3　評価パイプラインの設計　　　4.3.1　ステップ1：システム内のすべてのコンポーネントを評価する　　　4.3.2　ステップ2：評価ガイドラインを作成する　　　4.3.3　ステップ3：評価手法とデータを定義する　　4.4　まとめ
　5章　プロンプトエンジニアリング
　　5.1　プロンプト入門　　　5.1.1　コンテキスト内学習：Zero-shotとFew-shot　　　用語の曖昧さ：プロンプトとコンテキスト　　　5.1.2　システムプロンプトとユーザープロンプト　　　5.1.3　コンテキスト長とコンテキスト効率　　5.2　プロンプトエンジニアリングのベストプラクティス　　　5.2.1　明確で具体的な指示を書く　　　5.2.2　十分なコンテキストを提供する　　　モデルの知識をコンテキストのみに限定する方法　　　5.2.3　複雑なタスクをより単純なサブタスクに分割する　　　5.2.4　モデルに考える時間を与える　　　5.2.5　プロンプトを反復的に改善する　　　5.2.6　プロンプトエンジニアリングツールを評価する　　　5.2.7　プロンプトの整理とバージョン管理　　5.3　防御的プロンプトエンジニアリング　　　5.3.1　プロプライエタリなプロンプトとリバースプロンプトエンジニアリング　　　5.3.2　ジェイルブレイクとプロンプトインジェクション　　　5.3.3　情報抽出　　　5.3.4　プロンプト攻撃に対する防御策　　5.4　まとめ
　6章　RAGとエージェント
　　6.1　RAG　　　6.1.1　RAGアーキテクチャ　　　6.1.2　検索アルゴリズム　　　スパース検索 vs デンス検索　　　6.1.3　検索最適化　　　検索ソリューションの評価　　　6.1.4　テキスト以外のRAG　　6.2　エージェント　　　6.2.1　エージェントの概要　　　6.2.2　ツール　　　6.2.3　プランニング　　　基盤モデル（FM）プランナー vs 強化学習（RL）プランナー　　　6.2.4　エージェントの失敗パターンと評価　　6.3　記憶　　6.4　まとめ
　7章　ファインチューニング
　　7.1　ファインチューニングの概要　　7.2　いつファインチューニングするのか　　　7.2.1　ファインチューニングする理由　　　7.2.2　ファインチューニングしない理由　　　ドメイン特化タスクのファインチューニング　　　7.2.3　ファインチューニングとRAG　　7.3　メモリのボトルネック　　　メモリのボトルネックを理解するための要点　　　7.3.1　誤差逆伝播法と訓練可能パラメータ　　　7.3.2　メモリ計算　　　7.3.3　数値表現　　　7.3.4　量子化　　　量子化と精度削減　　7.4　ファインチューニングのテクニック　　　7.4.1　PEFT - パラメータ効率の良いファインチューニング　　　7.4.2　モデルマージとマルチタスクファインチューニング　　　7.4.3　ファインチューニングの戦術　　7.5　まとめ
　8章　データセットエンジニアリング
　　　データ中心AIという視点　　8.1　データキュレーション　　　8.1.1　データ品質　　　8.1.2　データカバレッジ　　　8.1.3　データ量　　　8.1.4　データの取得とアノテーション　　　公開データセットの入手先リソース　　8.2　データ拡張とデータ合成　　　8.2.1　なぜデータ合成をするのか　　　8.2.2　従来のデータ合成技術　　　8.2.3　AIを利用したデータ合成　　　8.2.4　モデル蒸留　　8.3　データ処理　　　8.3.1　データの検査　　　8.3.2　データの重複排除　　　8.3.3　データのクリーニングとフィルタリング　　　8.3.4　データのフォーマット　　8.4　まとめ
　9章　推論の最適化
　　9.1　推論の最適化を理解する　　　9.1.1　推論の概要　　　用語の曖昧さ：メモリバウンド対帯域幅バウンド　　　9.1.2　推論パフォーマンスのメトリクス　　　9.1.3　AIアクセラレーター　　　アクセラレーターの選択　　9.2　推論の最適化　　　9.2.1　モデルの最適化　　　KVキャッシュサイズの計算　　　PyTorchにおける推論最適化のケーススタディ　　　9.2.2　推論サービスの最適化　　9.3　まとめ
　10章　AIエンジニアリングのアーキテクチャとユーザーフィードバック
　　10.1　AIエンジニアリングアーキテクチャ　　　10.1.1　ステップ1：コンテキストの強化　　　10.1.2　ステップ2：ガードレールの設置　　　10.1.3　ステップ3：モデルルーターとゲートウェイの追加　　　10.1.4　ステップ4：キャッシュによるレイテンシーの削減　　　10.1.5　ステップ5：エージェントパターンの追加　　　10.1.6　モニタリングとオブザーバビリティ　　　モニタリング vs オブザーバビリティ　　　10.1.7　AIパイプラインのオーケストレーション　　10.2　ユーザーフィードバック　　　10.2.1　会話フィードバックの抽出　　　10.2.2　フィードバック設計　　　10.2.3　フィードバックの限界　　10.3　まとめ
　エピローグ
　著者紹介
　奥付

Content preview from AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

3章評価方法論

AIの利用が拡大するにつれて、悲劇的な問題が発生する可能性も高まります。基盤モデルが登場して間もないにもかかわらず、すでに多くの問題が報告されています。チャットボットに促されて自殺した男性†1の事例、AIがハルシネーションにより生成した偽の証拠†2を弁護士が提出した事例、また、Air CanadaはAIチャットボットが乗客に誤った情報を提供した†3ことで損害賠償を命じられました。AIの出力を品質管理する手段がなければ、多くのアプリケーションにおいて、AIのリスクがメリットを上回る可能性があります。

[†1] https://oreil.ly/tMH21

[†2] https://oreil.ly/-0Iq1

[†3] https://oreil.ly/kKWnZ

AIの導入を急ぐ多くのチームは、AIアプリケーションを実現する上での最大のハードルが評価であることにすぐに気づきます。アプリケーションによっては、評価方法の確立が開発作業の大半を占めることもあります†4。

[†4] 2023年12月、OpenAIの共同創業者であるGreg Brockmanは、「驚くほど多くの場合、評価こそが必要なすべてだ」とツイートしました（https://x.com/gdb/status/1733553161884127435）。

評価の重要性と複雑さから、本書では評価に関する章を2つ設けています。本章では、オープンエンドモデルを評価するために用いられるさまざまな評価手法、その仕組み、そして限界について解説します。次の章では、これらの手法を用いてアプリケーションに適したモデルを選択し、アプリケーションを評価するための評価パイプラインを構築する方法に焦点を当てます。

評価についてはそれ専用に章を設けて解説しますが、評価はシステム全体としての考慮事項であり、単独で切り離して考えるべきではありません。評価の目的は、リスクを軽減し、新たな可能性を見出すことです。リスクを軽減するためには、まずシステムが失敗しやすい箇所を特定し、それらを踏まえて評価を設計する必要があります。多くの場合、失敗に対する可視性を高めるために、システム自体の再設計が必要になることもあります。システムがどこで失敗するのかを明確に理解していなければ、どれほど多くの評価指標やツールを用いても、システムを堅牢にすることはできません。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784814401383Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

by Chip Huyen, 加賀谷諒, 菅野憲也

3章評価方法論

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.