book

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

Name: AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践
ISBN: 9784814401383

by Chip Huyen, 加賀谷諒, 菅野憲也

November 2025

Intermediate to advanced

544 pages

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　表紙
　大扉
　原書大扉
　クレジット
　訳者まえがき
　推薦の言葉
　まえがき
　　　『機械学習システムデザイン』（DMLS）と『AIエンジニアリング』（AIE）の読み方
　1章　基盤モデルを用いたAIアプリケーション開発入門
　　1.1　AIエンジニアリングの台頭　　　1.1.1　言語モデルから大規模言語モデルへ　　　1.1.2　大規模言語モデルから基盤モデルへ　　　1.1.3　基盤モデルからAIエンジニアリングへ　　　なぜ「AIエンジニアリング」という用語を使うのか？　　1.2　基盤モデルのユースケース　　　1.2.1　コーディング　　　1.2.2　画像・動画制作　　　1.2.3　文章作成　　　1.2.4　教育　　　1.2.5　会話ボット　　　1.2.6　情報の集約　　　1.2.7　データの整理　　　1.2.8　ワークフローの自動化　　1.3　AIアプリケーションの計画　　　1.3.1　ユースケースの評価　　　1.3.2　期待値の設定　　　1.3.3　マイルストーン計画　　　1.3.4　メンテナンス　　1.4　AIエンジニアリングスタック　　　1.4.1　AIスタックの3つのレイヤー　　　1.4.2　AIエンジニアリングとMLエンジニアリングの違い　　　学習、事前学習、ファインチューニング、事後学習の違いについて　　　1.4.3　AIエンジニアリング vs フルスタックエンジニアリング　　1.5　まとめ
　2章　基盤モデルを理解する
　　2.1　学習データ　　　2.1.1　多言語モデル　　　2.1.2　ドメイン特化モデル　　2.2　モデリング　　　2.2.1　モデルアーキテクチャ　　　2.2.2　モデルサイズ　　　逆スケーリング　　　パラメータとハイパーパラメータ　　2.3　事後学習　　　2.3.1　教師ありファインチューニング　　　2.3.2　選好ファインチューニング　　2.4　サンプリング　　　2.4.1　サンプリングの基礎　　　2.4.2　サンプリング戦略　　　2.4.3　テスト時計算　　　2.4.4　構造化出力　　　2.4.5　AIの確率論的性質　　2.5　まとめ
　3章　評価方法論
　　3.1　基盤モデルを評価する上での課題　　3.2　言語モデリングの指標を理解する　　　3.2.1　エントロピー　　　3.2.2　クロスエントロピー　　　3.2.3　BPC（Bits-per-Character）とBPB（Bits-per-Byte）　　　3.2.4　パープレキシティ　　　3.2.5　パープレキシティの解釈とユースケース　　　言語モデルを使用してテキストのパープレキシティを計算する方法　　3.3　厳密な評価　　　3.3.1　機能正確性　　　3.3.2　参照データとの類似度測定　　　3.3.3　埋め込み入門　　3.4　AI as a Judge　　　3.4.1　なぜAI as a Judgeか？　　　3.4.2　AI as a Judgeの使い方　　　3.4.3　AI as a Judgeの限界　　　3.4.4　どのようなモデルが評価者として機能できるか？　　3.5　比較評価によるモデルのランキング　　　3.5.1　比較評価の課題　　　3.5.2　比較評価の未来　　3.6　まとめ

　4章　AIシステムの評価
　　4.1　評価基準　　　評価駆動開発　　　4.1.1　ドメイン固有の能力　　　4.1.2　生成能力　　　4.1.3　指示追従能力　　　4.1.4　コストとレイテンシー　　4.2　モデル選定　　　4.2.1　モデル選定のワークフロー　　　4.2.2　自社で作るか外部から購入するか　　　4.2.3　公開ベンチマークの見方　　　OpenAIのモデルは劣化しているのか？　　4.3　評価パイプラインの設計　　　4.3.1　ステップ1：システム内のすべてのコンポーネントを評価する　　　4.3.2　ステップ2：評価ガイドラインを作成する　　　4.3.3　ステップ3：評価手法とデータを定義する　　4.4　まとめ
　5章　プロンプトエンジニアリング
　　5.1　プロンプト入門　　　5.1.1　コンテキスト内学習：Zero-shotとFew-shot　　　用語の曖昧さ：プロンプトとコンテキスト　　　5.1.2　システムプロンプトとユーザープロンプト　　　5.1.3　コンテキスト長とコンテキスト効率　　5.2　プロンプトエンジニアリングのベストプラクティス　　　5.2.1　明確で具体的な指示を書く　　　5.2.2　十分なコンテキストを提供する　　　モデルの知識をコンテキストのみに限定する方法　　　5.2.3　複雑なタスクをより単純なサブタスクに分割する　　　5.2.4　モデルに考える時間を与える　　　5.2.5　プロンプトを反復的に改善する　　　5.2.6　プロンプトエンジニアリングツールを評価する　　　5.2.7　プロンプトの整理とバージョン管理　　5.3　防御的プロンプトエンジニアリング　　　5.3.1　プロプライエタリなプロンプトとリバースプロンプトエンジニアリング　　　5.3.2　ジェイルブレイクとプロンプトインジェクション　　　5.3.3　情報抽出　　　5.3.4　プロンプト攻撃に対する防御策　　5.4　まとめ
　6章　RAGとエージェント
　　6.1　RAG　　　6.1.1　RAGアーキテクチャ　　　6.1.2　検索アルゴリズム　　　スパース検索 vs デンス検索　　　6.1.3　検索最適化　　　検索ソリューションの評価　　　6.1.4　テキスト以外のRAG　　6.2　エージェント　　　6.2.1　エージェントの概要　　　6.2.2　ツール　　　6.2.3　プランニング　　　基盤モデル（FM）プランナー vs 強化学習（RL）プランナー　　　6.2.4　エージェントの失敗パターンと評価　　6.3　記憶　　6.4　まとめ
　7章　ファインチューニング
　　7.1　ファインチューニングの概要　　7.2　いつファインチューニングするのか　　　7.2.1　ファインチューニングする理由　　　7.2.2　ファインチューニングしない理由　　　ドメイン特化タスクのファインチューニング　　　7.2.3　ファインチューニングとRAG　　7.3　メモリのボトルネック　　　メモリのボトルネックを理解するための要点　　　7.3.1　誤差逆伝播法と訓練可能パラメータ　　　7.3.2　メモリ計算　　　7.3.3　数値表現　　　7.3.4　量子化　　　量子化と精度削減　　7.4　ファインチューニングのテクニック　　　7.4.1　PEFT - パラメータ効率の良いファインチューニング　　　7.4.2　モデルマージとマルチタスクファインチューニング　　　7.4.3　ファインチューニングの戦術　　7.5　まとめ
　8章　データセットエンジニアリング
　　　データ中心AIという視点　　8.1　データキュレーション　　　8.1.1　データ品質　　　8.1.2　データカバレッジ　　　8.1.3　データ量　　　8.1.4　データの取得とアノテーション　　　公開データセットの入手先リソース　　8.2　データ拡張とデータ合成　　　8.2.1　なぜデータ合成をするのか　　　8.2.2　従来のデータ合成技術　　　8.2.3　AIを利用したデータ合成　　　8.2.4　モデル蒸留　　8.3　データ処理　　　8.3.1　データの検査　　　8.3.2　データの重複排除　　　8.3.3　データのクリーニングとフィルタリング　　　8.3.4　データのフォーマット　　8.4　まとめ
　9章　推論の最適化
　　9.1　推論の最適化を理解する　　　9.1.1　推論の概要　　　用語の曖昧さ：メモリバウンド対帯域幅バウンド　　　9.1.2　推論パフォーマンスのメトリクス　　　9.1.3　AIアクセラレーター　　　アクセラレーターの選択　　9.2　推論の最適化　　　9.2.1　モデルの最適化　　　KVキャッシュサイズの計算　　　PyTorchにおける推論最適化のケーススタディ　　　9.2.2　推論サービスの最適化　　9.3　まとめ
　10章　AIエンジニアリングのアーキテクチャとユーザーフィードバック
　　10.1　AIエンジニアリングアーキテクチャ　　　10.1.1　ステップ1：コンテキストの強化　　　10.1.2　ステップ2：ガードレールの設置　　　10.1.3　ステップ3：モデルルーターとゲートウェイの追加　　　10.1.4　ステップ4：キャッシュによるレイテンシーの削減　　　10.1.5　ステップ5：エージェントパターンの追加　　　10.1.6　モニタリングとオブザーバビリティ　　　モニタリング vs オブザーバビリティ　　　10.1.7　AIパイプラインのオーケストレーション　　10.2　ユーザーフィードバック　　　10.2.1　会話フィードバックの抽出　　　10.2.2　フィードバック設計　　　10.2.3　フィードバックの限界　　10.3　まとめ
　エピローグ
　著者紹介
　奥付

Content preview from AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

まえがき

ChatGPTが登場したとき、多くの同僚と同様に、私は驚きました。モデルの規模や能力に対してではありません。モデルを大きくすれば性能が向上することは、AIコミュニティでは10年以上前から広く知られていました。実際、2012年にAlexNetの著者たちは、画期的な論文（https://oreil.ly/XG3mv）の中で次のように述べています。「私たちのすべての実験は、より高速なGPUと大きなデータセットが利用可能になるのを待つだけで、結果を改善できることを示唆している」†1 †2。

[†1] AlexNetの論文著者であるIlya Sutskeverは、後にOpenAIを共同創業し、GPTモデルでこの教訓を現実のものとしました。

[†2] 翻訳品質を評価するために言語モデルを使用した、2017年の私の小さなプロジェクト（https://x.com/chipro/status/937384141791698944）でさえ、“より良い言語モデルが必要”という結論に達しました。

驚いたのは、この能力の向上によって開かれたアプリケーションの数の多さです。モデルの品質の指標がわずかに向上しても、アプリケーションはほんの少し増えるだけだと思っていました。ところが実際には、新たな可能性の爆発的な増加をもたらしました。

これらの新しいAIの能力は、AIアプリケーションの需要を高めただけでなく、開発者の参入障壁も引き下げました。AIアプリケーションの構築は非常に簡単に始められるようになり、コードを1行も書かずにアプリケーションを構築することも可能になりました。この変化により、AIは専門分野から、誰もが利用できる強力な開発ツールへと変わりました。

今日のAI活用は目新しく見えますが、実際は以前から存在してきた技術の上に成り立っています。言語モデリングに関する論文は1950年代には発表されていました。検索拡張生成（RAG）アプリケーションは、検索技術に基づいて構築されています。この検索技術は、RAGという言葉が生まれるずっと以前から検索やレコメンドシステムを支えてきました。従来の機械学習アプリケーションをデプロイするためのベストプラクティス、体系的な実験、厳密な評価、より高速で低コストなモデルへの絶え間ない最適化は、基盤モデルベースのアプリケーションでもベストプラクティスとして通用します。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784814401383Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

by Chip Huyen, 加賀谷諒, 菅野憲也

まえがき

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.