book

LLMOps ―本番環境における大規模言語モデル運用ガイド

Name: LLMOps ―本番環境における大規模言語モデル運用ガイド
ISBN: 9784814401604

by Abi Aryan, 嶋田健志, 新井翔太

May 2026

Intermediate

288 pages

3h 58m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

表紙
大扉
原書大扉
クレジット
はじめに
1章　大規模言語モデル入門
1.1　主要な用語1.2　トランスフォーマーモデル1.3　大規模言語モデル1.4　LLMアーキテクチャ1.4.1　エンコーダー型LLM1.4.2　デコーダー型LLM1.4.3　エンコーダー・デコーダー型LLM1.4.4　状態空間アーキテクチャ1.4.5　小規模言語モデル1.5　LLMの選定1.5.1　LLM選定における考慮事項1.5.2　オープンソースLLMとプロプライエタリLLM1.6　エンタープライズ向けLLMユースケース1.6.1　知識検索1.6.2　翻訳1.6.3　音声合成1.6.4　レコメンドシステム1.6.5　自律型AIエージェント1.6.6　エージェント型システム1.7　LLM活用における10の課題1. 規模と複雑さ2. トレーニング規模と期間3. プロンプトエンジニアリング4. 推論レイテンシーとスループット5. 倫理的配慮6. リソースのスケーリングとオーケストレーション7. システム統合とツールキット8. 適用範囲の広さ9. プライバシーとセキュリティ10. コスト1.8　まとめ1.9　参考文献
2章　LLMOps入門
2.1　運用フレームワークとは2.1.1　MLOpsからLLMOpsへ2.1.2　LLMOpsの4つの目標2.2　LLMOpsのチーム構成と役割2.2.1　LLMOpsエンジニアの役割2.2.2　LLMOpsエンジニアの一日2.2.3　外部からのLLMOpsエンジニア採用2.2.4　社内でのLLMOps人材の育成2.3　LLMと組織2.4　LLMOpsの4つの目標2.4.1　信頼性2.4.2　拡張性2.4.3　堅牢性2.4.4　セキュリティ2.5　LLMOps成熟度モデル2.6　まとめ2.7　参考文献2.8　さらに学ぶために
3章　LLMベースアプリケーション
3.1　アプリケーションにおけるAIモデル利用3.2　インフラ向けアプリケーション3.2.1　エージェント型ワークフロー3.2.2　MCP3.2.3　エージェント間プロトコル3.3　vLLMとマルチモーダルLLMの台頭3.4　LLMOpsに関する論点3.4.1　アプリケーション性能の監視3.4.2　コンシューマー向けLLMアプリケーションの性能評価3.4.3　アプリケーションに最適なモデル選定3.4.4　その他のアプリケーション指標3.5　LLMベースのアプリケーションで制御可能な要素3.5.1　プロンプトエンジニアリングの難しさ3.5.2　プロンプトエンジニアリングは改善につながったか3.6　LLMベースのインフラシステムの難易度3.7　まとめ3.8　参考文献
4章　LLMのためのデータエンジニアリング
4.1　データエンジニアリングとLLMの進化4.2　DataOpsエンジニアの役割4.3　データ管理4.3.1　合成データ4.3.2　LLMパイプライン4.3.3　LLMのトレーニング4.3.4　データ構成4.3.5　スケーリング則4.3.6　データの繰り返し4.3.7　データ品質4.4　LLM向けの一般的なデータ前処理パイプライン4.4.1　ステップ1：データのカタログ化4.4.2　ステップ2：プライバシーと法令遵守4.4.3　ステップ3：データのフィルタリング4.4.4　ステップ4：データ重複排除4.4.5　ステップ5：データ収集4.4.6　ステップ6：エンコーディング検出4.4.7　ステップ7：言語検出4.4.8　ステップ8：チャンク化4.4.9　ステップ9：データバックアップ4.4.10　ステップ10：メンテナンスと更新4.5　ベクトル化4.5.1　ベクトルデータベース4.5.2　データ鮮度の維持4.5.3　ファインチューニング用データ生成4.5.4　インストラクションデータの自動生成4.6　まとめ4.7　参考文献4.8　さらに学ぶために
5章　LLMベースアプリケーション向けモデルドメイン適応
5.1　LLMをゼロからトレーニングする5.1.1　ステップ1：タスク選定5.1.2　ステップ2：データ準備5.1.3　ステップ3：モデルアーキテクチャ設計5.1.4　ステップ4：トレーニングインフラ構築5.1.5　ステップ5：トレーニングの実装5.2　モデルアンサンブル手法5.2.1　モデル平均化とブレンド5.2.2　重み付きアンサンブル5.2.3　重ね合わせアンサンブル（2段構成）5.2.4　堅牢性向上のための多様なアンサンブル5.2.5　多段階デコーディングと投票メカニズム5.2.6　コンポーザビリティ5.2.7　ソフトアクタークリティック5.3　モデルドメイン適応5.4　プロンプトエンジニアリング5.4.1　One-Shotプロンプト5.4.2　Few-Shotプロンプト5.4.3　思考の連鎖（CoT）プロンプト5.4.4　検索拡張生成（RAG）5.4.5　セマンティックカーネル5.5　ファインチューニング5.5.1　適応型ファインチューニング5.5.2　アダプター（単一、並列、スケール並列）5.5.3　振る舞いファインチューニング5.5.4　プレフィックスチューニング5.5.5　パラメーター効率型ファインチューニング5.5.6　インストラクションチューニングと人間のフィードバックによる強化学習（RLHF）5.5.7　ファインチューニングとプロンプトエンジニアリングの選択5.6　MoE5.7　リソース制約環境向けモデル最適化5.8　効果的なLLM開発の教訓5.8.1　スケーリング則5.8.2　チンチラモデル5.8.3　学習率の最適化5.8.4　投機的サンプリング5.9　まとめ5.10　参考文献

6章　APIファーストLLMデプロイ
6.1　モデルのデプロイ6.1.1　ステップ1：環境構築6.1.2　ステップ2：LLMのコンテナ化6.1.3　ステップ3：Jenkinsによるパイプライン自動化6.1.4　ステップ4：ワークフローオーケストレーション6.1.5　ステップ5：監視設定6.2　LLM向けAPI開発6.2.1　API主導アーキテクチャ戦略6.2.2　REST API6.3　APIの実装6.3.1　ステップ1：APIエンドポイント定義6.3.2　ステップ2：API開発フレームワーク選定6.3.3　ステップ3：APIテスト6.4　認証情報管理6.5　APIゲートウェイ6.6　APIのバージョニングとライフサイクル管理6.7　LLMデプロイアーキテクチャ6.7.1　モジュラーとモノリシックアーキテクチャ6.7.2　マイクロサービスベースアーキテクチャ実装6.8　リトリーバー、リランカー、パイプラインによるRAG自動化6.9　ナレッジグラフ更新の自動化6.10　デプロイレイテンシー最適化6.11　マルチモデルのオーケストレーション6.12　RAGパイプライン最適化6.12.1　非同期クエリ6.12.2　密検索と疎検索の組み合わせ6.12.3　埋め込みキャッシュ6.12.4　キーバリューキャッシュ6.13　拡張性と再利用性6.14　まとめ
7章　LLMの評価
7.1　評価が難しい理由7.2　性能評価7.2.1　致命的な障害の予兆評価7.2.2　RAGアプリケーションのメトリクス7.2.3　エージェントシステムのメトリクス7.3　評価全般の考慮事項7.3.1　メトリクス収集を自動化する価値7.3.2　モデルドリフト7.4　従来のメトリクスでの限界7.4.1　可観測性パイプライン7.4.2　前処理とプロンプトの作成7.4.3　RAGパイプラインにおける検索7.4.4　LLM推論7.4.5　後処理と出力検証7.4.6　フィードバックの取得7.5　まとめ7.6　参考文献
8章　ガバナンス：監視、プライバシー、セキュリティ
8.1　データ課題：規模と機微性8.2　セキュリティリスク8.2.1　プロンプトインジェクション8.2.2　ジェイルブレイク8.2.3　その他のセキュリティリスク8.3　防御策：LLMSecOps8.4　LLMSecOps監査の実施8.4.1　ステップ1：スコープと目的定義8.4.2　ステップ2：情報収集8.4.3　ステップ3：リスク分析と脅威モデリング8.4.4　ステップ4：セキュリティ統制とコンプライアンス評価8.4.5　ステップ5：ペネトレーションテストとレッドチーム演習8.4.6　ステップ6：トレーニングデータレビュー8.4.7　ステップ7：モデルの性能とバイアス評価8.4.8　ステップ8：結果と提言のドキュメント化8.4.9　ステップ9：継続的な監視計画8.4.10　ステップ10：コミュニケーションと改善計画を整備8.5　安全性と倫理的ガードレール8.6　まとめ8.7　参考文献
9章　スケーリング：ハードウェア、インフラ、リソース管理
9.1　適切なアプローチ選択9.2　スケーリングとリソース割り当て9.3　監視9.4　LLMのA/Bテストとシャドウテスト9.5　インフラの自動プロビジョニングと管理9.5.1　クラウド環境でのプロビジョニングと管理9.5.2　自社ハードウェアでのプロビジョニングと管理9.5.3　インフラ自動管理のベストプラクティス9.5.4　スケーリング則と計算最適化9.6　LLMインフラ最適化9.6.1　カーネル融合9.6.2　精度スケーリング9.6.3　ハードウェア活用9.7　LLM並列と分散コンピューティング9.7.1　データ並列性9.7.2　モデル並列性9.7.3　パイプライン並列性9.8　高度なフレームワーク：ZeROとDeepSpeed9.8.1　バックアップとフェイルセーフ9.8.2　バックアップ戦略の種類9.8.3　定期的なリストアテストの重要性9.9　まとめ9.10　参考文献
10章　LLMとLLMOpsの未来
10.1　現在の限界を超えるスケーリング10.2　ハイブリッドアーキテクチャ：ニューラルネットワークと記号的AIの融合10.2.1　スパースモデルとMoEモデル10.2.2　メモリ拡張モデル10.2.3　解釈可能モデルと自己最適化モデル10.2.4　クロスモデル協調、メタ学習、マルチモーダルファインチューニング10.2.5　RAG10.3　LLMOpsの未来10.3.1　GPU技術の進展10.3.2　データ管理と効率性10.3.3　プライバシーとセキュリティ10.3.4　包括的な評価フレームワーク10.4　LLMOpsエンジニアとしての成功指針10.5　まとめ10.6　参考文献10.7　さらに学ぶために
著者・訳者紹介
奥付

Content preview from LLMOps ―本番環境における大規模言語モデル運用ガイド

9章スケーリング：ハードウェア、インフラ、リソース管理

LLMをデプロイして運用する際には、インフラとリソース管理の面で特有の課題が生まれます。本書を通じて見てきたように、LLMは計算負荷が非常に高く、効率良く動作させるために多くのハードウェア、ストレージ、ネットワークリソースが必要です。LLMをクラウドベースのサービスとして利用するときも、オンプレミスのデータセンターに事前学習済みモデルを展開するときも、あるいは独自モデルを一からトレーニングするときも、どのようなインフラを選ぶかが性能、拡張性、費用対効果を左右します。

LLMの効果的なリソース管理では、計算能力、メモリ、ストレージを最適化します。この章では、ハードウェア要件やデプロイ戦略を含むLLM向けインフラの主要な構成要素を取り上げます。また、本番環境でリソース利用を最適化し、コストを抑え、信頼性を維持するためのベストプラクティスについても説明します。本章を読むことで、大規模AIアプリケーションのリソースを管理するときに発生するトレードオフを理解できるようになります。

9.1　適切なアプローチ選択

LLMの適切な使用方法は、LLMを使用するアプリケーションの要件に依存します。スタートアップや小規模なアプリケーションの場合、クラウドで提供されるモデルを直接使うのが、最も迅速で費用対効果の高い解決策になることが多いです。一方、特別な要件や大規模なワークロードを抱える組織の場合、クラウドインフラ上にLLMをデプロイすることで柔軟性と拡張性の適切なバランスを見つけやすくなるでしょう。また、厳格なデータプライバシーやレイテンシーに関する要件がある組織の場合、ローカルデプロイによって他の方法では得られない制御性とセキュリティを確保できますが、運用の複雑さは増します。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

生成AI時代のソフトウェア開発 ―ツールを賢く選択、評価、活用し、より速く効率的な開発を進めるために

Publisher Resources

ISBN: 9784814401604Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

LLMOps ―本番環境における大規模言語モデル運用ガイド

by Abi Aryan, 嶋田健志, 新井翔太

9章スケーリング：ハードウェア、インフラ、リソース管理

9.1　適切なアプローチ選択

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.