book

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

Name: AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践
ISBN: 9784814401383

by Chip Huyen, 加賀谷諒, 菅野憲也

November 2025

Intermediate to advanced

544 pages

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　表紙
　大扉
　原書大扉
　クレジット
　訳者まえがき
　推薦の言葉
　まえがき
　　　『機械学習システムデザイン』（DMLS）と『AIエンジニアリング』（AIE）の読み方
　1章　基盤モデルを用いたAIアプリケーション開発入門
　　1.1　AIエンジニアリングの台頭　　　1.1.1　言語モデルから大規模言語モデルへ　　　1.1.2　大規模言語モデルから基盤モデルへ　　　1.1.3　基盤モデルからAIエンジニアリングへ　　　なぜ「AIエンジニアリング」という用語を使うのか？　　1.2　基盤モデルのユースケース　　　1.2.1　コーディング　　　1.2.2　画像・動画制作　　　1.2.3　文章作成　　　1.2.4　教育　　　1.2.5　会話ボット　　　1.2.6　情報の集約　　　1.2.7　データの整理　　　1.2.8　ワークフローの自動化　　1.3　AIアプリケーションの計画　　　1.3.1　ユースケースの評価　　　1.3.2　期待値の設定　　　1.3.3　マイルストーン計画　　　1.3.4　メンテナンス　　1.4　AIエンジニアリングスタック　　　1.4.1　AIスタックの3つのレイヤー　　　1.4.2　AIエンジニアリングとMLエンジニアリングの違い　　　学習、事前学習、ファインチューニング、事後学習の違いについて　　　1.4.3　AIエンジニアリング vs フルスタックエンジニアリング　　1.5　まとめ
　2章　基盤モデルを理解する
　　2.1　学習データ　　　2.1.1　多言語モデル　　　2.1.2　ドメイン特化モデル　　2.2　モデリング　　　2.2.1　モデルアーキテクチャ　　　2.2.2　モデルサイズ　　　逆スケーリング　　　パラメータとハイパーパラメータ　　2.3　事後学習　　　2.3.1　教師ありファインチューニング　　　2.3.2　選好ファインチューニング　　2.4　サンプリング　　　2.4.1　サンプリングの基礎　　　2.4.2　サンプリング戦略　　　2.4.3　テスト時計算　　　2.4.4　構造化出力　　　2.4.5　AIの確率論的性質　　2.5　まとめ
　3章　評価方法論
　　3.1　基盤モデルを評価する上での課題　　3.2　言語モデリングの指標を理解する　　　3.2.1　エントロピー　　　3.2.2　クロスエントロピー　　　3.2.3　BPC（Bits-per-Character）とBPB（Bits-per-Byte）　　　3.2.4　パープレキシティ　　　3.2.5　パープレキシティの解釈とユースケース　　　言語モデルを使用してテキストのパープレキシティを計算する方法　　3.3　厳密な評価　　　3.3.1　機能正確性　　　3.3.2　参照データとの類似度測定　　　3.3.3　埋め込み入門　　3.4　AI as a Judge　　　3.4.1　なぜAI as a Judgeか？　　　3.4.2　AI as a Judgeの使い方　　　3.4.3　AI as a Judgeの限界　　　3.4.4　どのようなモデルが評価者として機能できるか？　　3.5　比較評価によるモデルのランキング　　　3.5.1　比較評価の課題　　　3.5.2　比較評価の未来　　3.6　まとめ

　4章　AIシステムの評価
　　4.1　評価基準　　　評価駆動開発　　　4.1.1　ドメイン固有の能力　　　4.1.2　生成能力　　　4.1.3　指示追従能力　　　4.1.4　コストとレイテンシー　　4.2　モデル選定　　　4.2.1　モデル選定のワークフロー　　　4.2.2　自社で作るか外部から購入するか　　　4.2.3　公開ベンチマークの見方　　　OpenAIのモデルは劣化しているのか？　　4.3　評価パイプラインの設計　　　4.3.1　ステップ1：システム内のすべてのコンポーネントを評価する　　　4.3.2　ステップ2：評価ガイドラインを作成する　　　4.3.3　ステップ3：評価手法とデータを定義する　　4.4　まとめ
　5章　プロンプトエンジニアリング
　　5.1　プロンプト入門　　　5.1.1　コンテキスト内学習：Zero-shotとFew-shot　　　用語の曖昧さ：プロンプトとコンテキスト　　　5.1.2　システムプロンプトとユーザープロンプト　　　5.1.3　コンテキスト長とコンテキスト効率　　5.2　プロンプトエンジニアリングのベストプラクティス　　　5.2.1　明確で具体的な指示を書く　　　5.2.2　十分なコンテキストを提供する　　　モデルの知識をコンテキストのみに限定する方法　　　5.2.3　複雑なタスクをより単純なサブタスクに分割する　　　5.2.4　モデルに考える時間を与える　　　5.2.5　プロンプトを反復的に改善する　　　5.2.6　プロンプトエンジニアリングツールを評価する　　　5.2.7　プロンプトの整理とバージョン管理　　5.3　防御的プロンプトエンジニアリング　　　5.3.1　プロプライエタリなプロンプトとリバースプロンプトエンジニアリング　　　5.3.2　ジェイルブレイクとプロンプトインジェクション　　　5.3.3　情報抽出　　　5.3.4　プロンプト攻撃に対する防御策　　5.4　まとめ
　6章　RAGとエージェント
　　6.1　RAG　　　6.1.1　RAGアーキテクチャ　　　6.1.2　検索アルゴリズム　　　スパース検索 vs デンス検索　　　6.1.3　検索最適化　　　検索ソリューションの評価　　　6.1.4　テキスト以外のRAG　　6.2　エージェント　　　6.2.1　エージェントの概要　　　6.2.2　ツール　　　6.2.3　プランニング　　　基盤モデル（FM）プランナー vs 強化学習（RL）プランナー　　　6.2.4　エージェントの失敗パターンと評価　　6.3　記憶　　6.4　まとめ
　7章　ファインチューニング
　　7.1　ファインチューニングの概要　　7.2　いつファインチューニングするのか　　　7.2.1　ファインチューニングする理由　　　7.2.2　ファインチューニングしない理由　　　ドメイン特化タスクのファインチューニング　　　7.2.3　ファインチューニングとRAG　　7.3　メモリのボトルネック　　　メモリのボトルネックを理解するための要点　　　7.3.1　誤差逆伝播法と訓練可能パラメータ　　　7.3.2　メモリ計算　　　7.3.3　数値表現　　　7.3.4　量子化　　　量子化と精度削減　　7.4　ファインチューニングのテクニック　　　7.4.1　PEFT - パラメータ効率の良いファインチューニング　　　7.4.2　モデルマージとマルチタスクファインチューニング　　　7.4.3　ファインチューニングの戦術　　7.5　まとめ
　8章　データセットエンジニアリング
　　　データ中心AIという視点　　8.1　データキュレーション　　　8.1.1　データ品質　　　8.1.2　データカバレッジ　　　8.1.3　データ量　　　8.1.4　データの取得とアノテーション　　　公開データセットの入手先リソース　　8.2　データ拡張とデータ合成　　　8.2.1　なぜデータ合成をするのか　　　8.2.2　従来のデータ合成技術　　　8.2.3　AIを利用したデータ合成　　　8.2.4　モデル蒸留　　8.3　データ処理　　　8.3.1　データの検査　　　8.3.2　データの重複排除　　　8.3.3　データのクリーニングとフィルタリング　　　8.3.4　データのフォーマット　　8.4　まとめ
　9章　推論の最適化
　　9.1　推論の最適化を理解する　　　9.1.1　推論の概要　　　用語の曖昧さ：メモリバウンド対帯域幅バウンド　　　9.1.2　推論パフォーマンスのメトリクス　　　9.1.3　AIアクセラレーター　　　アクセラレーターの選択　　9.2　推論の最適化　　　9.2.1　モデルの最適化　　　KVキャッシュサイズの計算　　　PyTorchにおける推論最適化のケーススタディ　　　9.2.2　推論サービスの最適化　　9.3　まとめ
　10章　AIエンジニアリングのアーキテクチャとユーザーフィードバック
　　10.1　AIエンジニアリングアーキテクチャ　　　10.1.1　ステップ1：コンテキストの強化　　　10.1.2　ステップ2：ガードレールの設置　　　10.1.3　ステップ3：モデルルーターとゲートウェイの追加　　　10.1.4　ステップ4：キャッシュによるレイテンシーの削減　　　10.1.5　ステップ5：エージェントパターンの追加　　　10.1.6　モニタリングとオブザーバビリティ　　　モニタリング vs オブザーバビリティ　　　10.1.7　AIパイプラインのオーケストレーション　　10.2　ユーザーフィードバック　　　10.2.1　会話フィードバックの抽出　　　10.2.2　フィードバック設計　　　10.2.3　フィードバックの限界　　10.3　まとめ
　エピローグ
　著者紹介
　奥付

Content preview from AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

8章データセットエンジニアリング

モデルの品質は学習データの品質に依存します。世界最高の機械学習チームが無限の計算能力を持っていても、データがなければ良いモデルをファインチューニングすることはできません。データセットエンジニアリングの目標は、理想的には予算内で最高のモデルを訓練できるデータセットを作成することです。

モデルをゼロから開発できる企業が減るにつれ、AIの性能で差別化を図るためにデータに注目する企業が増えています。モデルがより多くのデータを必要とするようになると、その取り扱いはさらに難しくなり、人材とインフラへの投資が一層求められます†1。

[†1] データの重要性の高まりは、GPT-3からGPT-4にかけてのデータへの取り組みの変化にも表れています。GPT-3のコントリビューターリスト（OpenAI, 2020, https://oreil.ly/R4-VI）では、データの収集、フィルタリング、重複排除、そして学習データの重複分析の担当者としてクレジットされていたのはわずか2人でしたが、この状況は3年後には劇的に変わりました。GPT-4（OpenAI, 2023, https://oreil.ly/F9Fyc）では、さまざまなデータプロセスに関与したとして80人の名前がクレジットされています。このリストには、OpenAIがデータプロバイダーを通じて契約したデータアノテーターは含まれていません。ChatMLフォーマットという単純に聞こえるものに対しても、11人が関与し、その多くはシニアリサーチャーでした。2016年のAMA（ask me anything）スレッド（https://oreil.ly/h-lAl）で、OpenAIの共同創設者の1人であるWojciech Zarembaは、研究の大部分を公開されているデータセットを使用して行うつもりだと述べていました。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784814401383Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AIエンジニアリング ―基盤モデルを用いたAIアプリケーション開発の基礎と実践

by Chip Huyen, 加賀谷諒, 菅野憲也

8章データセットエンジニアリング

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.