book

LLMOps ―本番環境における大規模言語モデル運用ガイド

Name: LLMOps ―本番環境における大規模言語モデル運用ガイド
ISBN: 9784814401604

by Abi Aryan, 嶋田健志, 新井翔太

May 2026

Intermediate

288 pages

3h 58m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

表紙
大扉
原書大扉
クレジット
はじめに
1章　大規模言語モデル入門
1.1　主要な用語1.2　トランスフォーマーモデル1.3　大規模言語モデル1.4　LLMアーキテクチャ1.4.1　エンコーダー型LLM1.4.2　デコーダー型LLM1.4.3　エンコーダー・デコーダー型LLM1.4.4　状態空間アーキテクチャ1.4.5　小規模言語モデル1.5　LLMの選定1.5.1　LLM選定における考慮事項1.5.2　オープンソースLLMとプロプライエタリLLM1.6　エンタープライズ向けLLMユースケース1.6.1　知識検索1.6.2　翻訳1.6.3　音声合成1.6.4　レコメンドシステム1.6.5　自律型AIエージェント1.6.6　エージェント型システム1.7　LLM活用における10の課題1. 規模と複雑さ2. トレーニング規模と期間3. プロンプトエンジニアリング4. 推論レイテンシーとスループット5. 倫理的配慮6. リソースのスケーリングとオーケストレーション7. システム統合とツールキット8. 適用範囲の広さ9. プライバシーとセキュリティ10. コスト1.8　まとめ1.9　参考文献
2章　LLMOps入門
2.1　運用フレームワークとは2.1.1　MLOpsからLLMOpsへ2.1.2　LLMOpsの4つの目標2.2　LLMOpsのチーム構成と役割2.2.1　LLMOpsエンジニアの役割2.2.2　LLMOpsエンジニアの一日2.2.3　外部からのLLMOpsエンジニア採用2.2.4　社内でのLLMOps人材の育成2.3　LLMと組織2.4　LLMOpsの4つの目標2.4.1　信頼性2.4.2　拡張性2.4.3　堅牢性2.4.4　セキュリティ2.5　LLMOps成熟度モデル2.6　まとめ2.7　参考文献2.8　さらに学ぶために
3章　LLMベースアプリケーション
3.1　アプリケーションにおけるAIモデル利用3.2　インフラ向けアプリケーション3.2.1　エージェント型ワークフロー3.2.2　MCP3.2.3　エージェント間プロトコル3.3　vLLMとマルチモーダルLLMの台頭3.4　LLMOpsに関する論点3.4.1　アプリケーション性能の監視3.4.2　コンシューマー向けLLMアプリケーションの性能評価3.4.3　アプリケーションに最適なモデル選定3.4.4　その他のアプリケーション指標3.5　LLMベースのアプリケーションで制御可能な要素3.5.1　プロンプトエンジニアリングの難しさ3.5.2　プロンプトエンジニアリングは改善につながったか3.6　LLMベースのインフラシステムの難易度3.7　まとめ3.8　参考文献
4章　LLMのためのデータエンジニアリング
4.1　データエンジニアリングとLLMの進化4.2　DataOpsエンジニアの役割4.3　データ管理4.3.1　合成データ4.3.2　LLMパイプライン4.3.3　LLMのトレーニング4.3.4　データ構成4.3.5　スケーリング則4.3.6　データの繰り返し4.3.7　データ品質4.4　LLM向けの一般的なデータ前処理パイプライン4.4.1　ステップ1：データのカタログ化4.4.2　ステップ2：プライバシーと法令遵守4.4.3　ステップ3：データのフィルタリング4.4.4　ステップ4：データ重複排除4.4.5　ステップ5：データ収集4.4.6　ステップ6：エンコーディング検出4.4.7　ステップ7：言語検出4.4.8　ステップ8：チャンク化4.4.9　ステップ9：データバックアップ4.4.10　ステップ10：メンテナンスと更新4.5　ベクトル化4.5.1　ベクトルデータベース4.5.2　データ鮮度の維持4.5.3　ファインチューニング用データ生成4.5.4　インストラクションデータの自動生成4.6　まとめ4.7　参考文献4.8　さらに学ぶために
5章　LLMベースアプリケーション向けモデルドメイン適応
5.1　LLMをゼロからトレーニングする5.1.1　ステップ1：タスク選定5.1.2　ステップ2：データ準備5.1.3　ステップ3：モデルアーキテクチャ設計5.1.4　ステップ4：トレーニングインフラ構築5.1.5　ステップ5：トレーニングの実装5.2　モデルアンサンブル手法5.2.1　モデル平均化とブレンド5.2.2　重み付きアンサンブル5.2.3　重ね合わせアンサンブル（2段構成）5.2.4　堅牢性向上のための多様なアンサンブル5.2.5　多段階デコーディングと投票メカニズム5.2.6　コンポーザビリティ5.2.7　ソフトアクタークリティック5.3　モデルドメイン適応5.4　プロンプトエンジニアリング5.4.1　One-Shotプロンプト5.4.2　Few-Shotプロンプト5.4.3　思考の連鎖（CoT）プロンプト5.4.4　検索拡張生成（RAG）5.4.5　セマンティックカーネル5.5　ファインチューニング5.5.1　適応型ファインチューニング5.5.2　アダプター（単一、並列、スケール並列）5.5.3　振る舞いファインチューニング5.5.4　プレフィックスチューニング5.5.5　パラメーター効率型ファインチューニング5.5.6　インストラクションチューニングと人間のフィードバックによる強化学習（RLHF）5.5.7　ファインチューニングとプロンプトエンジニアリングの選択5.6　MoE5.7　リソース制約環境向けモデル最適化5.8　効果的なLLM開発の教訓5.8.1　スケーリング則5.8.2　チンチラモデル5.8.3　学習率の最適化5.8.4　投機的サンプリング5.9　まとめ5.10　参考文献

6章　APIファーストLLMデプロイ
6.1　モデルのデプロイ6.1.1　ステップ1：環境構築6.1.2　ステップ2：LLMのコンテナ化6.1.3　ステップ3：Jenkinsによるパイプライン自動化6.1.4　ステップ4：ワークフローオーケストレーション6.1.5　ステップ5：監視設定6.2　LLM向けAPI開発6.2.1　API主導アーキテクチャ戦略6.2.2　REST API6.3　APIの実装6.3.1　ステップ1：APIエンドポイント定義6.3.2　ステップ2：API開発フレームワーク選定6.3.3　ステップ3：APIテスト6.4　認証情報管理6.5　APIゲートウェイ6.6　APIのバージョニングとライフサイクル管理6.7　LLMデプロイアーキテクチャ6.7.1　モジュラーとモノリシックアーキテクチャ6.7.2　マイクロサービスベースアーキテクチャ実装6.8　リトリーバー、リランカー、パイプラインによるRAG自動化6.9　ナレッジグラフ更新の自動化6.10　デプロイレイテンシー最適化6.11　マルチモデルのオーケストレーション6.12　RAGパイプライン最適化6.12.1　非同期クエリ6.12.2　密検索と疎検索の組み合わせ6.12.3　埋め込みキャッシュ6.12.4　キーバリューキャッシュ6.13　拡張性と再利用性6.14　まとめ
7章　LLMの評価
7.1　評価が難しい理由7.2　性能評価7.2.1　致命的な障害の予兆評価7.2.2　RAGアプリケーションのメトリクス7.2.3　エージェントシステムのメトリクス7.3　評価全般の考慮事項7.3.1　メトリクス収集を自動化する価値7.3.2　モデルドリフト7.4　従来のメトリクスでの限界7.4.1　可観測性パイプライン7.4.2　前処理とプロンプトの作成7.4.3　RAGパイプラインにおける検索7.4.4　LLM推論7.4.5　後処理と出力検証7.4.6　フィードバックの取得7.5　まとめ7.6　参考文献
8章　ガバナンス：監視、プライバシー、セキュリティ
8.1　データ課題：規模と機微性8.2　セキュリティリスク8.2.1　プロンプトインジェクション8.2.2　ジェイルブレイク8.2.3　その他のセキュリティリスク8.3　防御策：LLMSecOps8.4　LLMSecOps監査の実施8.4.1　ステップ1：スコープと目的定義8.4.2　ステップ2：情報収集8.4.3　ステップ3：リスク分析と脅威モデリング8.4.4　ステップ4：セキュリティ統制とコンプライアンス評価8.4.5　ステップ5：ペネトレーションテストとレッドチーム演習8.4.6　ステップ6：トレーニングデータレビュー8.4.7　ステップ7：モデルの性能とバイアス評価8.4.8　ステップ8：結果と提言のドキュメント化8.4.9　ステップ9：継続的な監視計画8.4.10　ステップ10：コミュニケーションと改善計画を整備8.5　安全性と倫理的ガードレール8.6　まとめ8.7　参考文献
9章　スケーリング：ハードウェア、インフラ、リソース管理
9.1　適切なアプローチ選択9.2　スケーリングとリソース割り当て9.3　監視9.4　LLMのA/Bテストとシャドウテスト9.5　インフラの自動プロビジョニングと管理9.5.1　クラウド環境でのプロビジョニングと管理9.5.2　自社ハードウェアでのプロビジョニングと管理9.5.3　インフラ自動管理のベストプラクティス9.5.4　スケーリング則と計算最適化9.6　LLMインフラ最適化9.6.1　カーネル融合9.6.2　精度スケーリング9.6.3　ハードウェア活用9.7　LLM並列と分散コンピューティング9.7.1　データ並列性9.7.2　モデル並列性9.7.3　パイプライン並列性9.8　高度なフレームワーク：ZeROとDeepSpeed9.8.1　バックアップとフェイルセーフ9.8.2　バックアップ戦略の種類9.8.3　定期的なリストアテストの重要性9.9　まとめ9.10　参考文献
10章　LLMとLLMOpsの未来
10.1　現在の限界を超えるスケーリング10.2　ハイブリッドアーキテクチャ：ニューラルネットワークと記号的AIの融合10.2.1　スパースモデルとMoEモデル10.2.2　メモリ拡張モデル10.2.3　解釈可能モデルと自己最適化モデル10.2.4　クロスモデル協調、メタ学習、マルチモーダルファインチューニング10.2.5　RAG10.3　LLMOpsの未来10.3.1　GPU技術の進展10.3.2　データ管理と効率性10.3.3　プライバシーとセキュリティ10.3.4　包括的な評価フレームワーク10.4　LLMOpsエンジニアとしての成功指針10.5　まとめ10.6　参考文献10.7　さらに学ぶために
著者・訳者紹介
奥付

Content preview from LLMOps ―本番環境における大規模言語モデル運用ガイド

7章LLMの評価

言語モデルはますます高度化していますが、その有効性を正確に評価することは依然として大きな課題です。

LLM評価の重要性は、学術界と産業界の双方から注目を集め、この分野の研究と検証に多くの人が取り組んでいます。それは問題の重要性と有効な解決策を見つけようとする集団的決意を示しています。これらの取り組みはイノベーションの速度を加速し、研究者がモデルを理解し改善するのに役立っています。

学術界では、研究者が新しい方法論を探り、革新的な指標を開発し、LLM評価の限界を押し広げるために厳密な実験を重ねています。有力な候補はいくつかありますが、多くの指標やスコアボードは短期間しか使えなかったり用途が限られていたりするため、明確な勝者はまだ現れていません。それでも業界のプレーヤーは、LLMの性能が現実の業務に及ぼす影響を強く意識しています。

評価の核心は、首尾一貫した文脈に関連したテキストの生成、ユーザー入力の理解、特定のタスクの完了など、LLMが意図した目的をどれくらい達成できたかを測ることです。この章では、さまざまなアプリケーションでこの課題に取り組むために設計された体系的なフレームワークと、これまでに有効だった工夫を紹介します。

7.1　評価が難しい理由

LLMの評価とは、LLMの性能と能力を見極めるプロセスです。LLMが意図した目的をどれくらい達成し、倫理的なガイドラインを守れているかを判断するために、複数の手法を組み合わせます。

機械学習ソリューションを開発してデプロイするには、従来のソフトウェア開発とは異なる新しい種類のテストや評価を用意します。特に機械学習モデルはトレーニング中に乱数を使うため、データセット全体での評価に加えて、トレーニングが正しく機能したことを確認できる個別のデータでも検証しなければなりません。しかし、一度モデルをトレーニングし終えると、ほとんどの機械学習モデルは推論時にランダムな手法を使わない決定論的な性質を持ち、同じ入力からは常に同じ出力が得られます。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

生成AI時代のソフトウェア開発 ―ツールを賢く選択、評価、活用し、より速く効率的な開発を進めるために

Publisher Resources

ISBN: 9784814401604Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

LLMOps ―本番環境における大規模言語モデル運用ガイド

by Abi Aryan, 嶋田健志, 新井翔太

7章LLMの評価

7.1　評価が難しい理由

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.