book

Kubernetes上での生成AI (Japanese Edition)

Name: Kubernetes上での生成AI (Japanese Edition)
ISBN: 0642572344641

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

6h 41m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
本書を書いた理由Kubernetes生成AI本書の構成この本の対象読者学ぶ内容本書で使用する表記規則O’Reilly オンライン学習問い合わせ先謝辞
導入部
大規模な生成AIの実行における課題AIワークロードのためのKubernetesLLMの基礎を理解するLLMsがテキストを処理する方法トークン化と埋め込み推論の二段階概要推論本番環境対応チューニングAI駆動型アプリケーション
I. 推論
1. モデルのデプロイ
「私のマシンでは動く」モデルサーバvLLMHugging Face テキスト生成推論その他のモデルサーバKubernetesへのモデル手動デプロイモデルサーバコントローラーKServeRay Serve と KubeRay得られた教訓
2. モデルデータ
モデルデータストレージ形式ウェイトオンリー形式自己完結型形式ONNXSafetensorsGGUF と GGML現状と課題モデルレジストリHugging Face モデルハブMLflowモデルレジストリKubeflowモデルレジストリOCI レジストリKubernetes におけるモデルデータへのアクセスPersistentVolumes による共有ストレージモデルデータを保存するための OCI イメージModelcarsOCIイメージボリュームマウント得られた教訓
II. 生産準備
3. Kubernetes と GPU
GPU 検出ノード機能検出GPU機能検出Kubernetes GPU デバイスプラグインGPU ワークロードスケジューリングラベルベーススケジューリングリソースベースのスケジューリング動的リソース割り当てNVIDIA GPU オペレータークラスタポリシーによる演算子構成サブGPU割り当てマルチGPU推論データ並列性モデル並列性単一ノード対マルチノード推論GPUリソースの最適化得られた教訓
4. 本番環境での実行
モデルとランタイムのチューニング言語モデルの評価言語モデルの圧縮モデル性能ベンチマークvLLMランタイムパラメータ調整オートスケーリングvLLMの起動時間を最適化するLLM対応ルーティングAPIゲートウェイからAIゲートウェイへゲートウェイ API 推論拡張分散型サービング得られた教訓
5. モデルの可観測性
可観測性スタックと構成ログメトリックトレースモデルサーバのメトリック最初のトークンまでの時間出力トークンごとの遅延またはトークン間遅延スループット遅延リクエストキューのメトリックGPU使用率の監視品質メトリック責任あるAI説明可能性公平性モデルの安全性：ハルシネーションとガードレールハルシネーションの理解と検出実行時のガードレール得られた教訓
III. 調整

6. モデルのカスタマイズ
LLM作成導入部プロンプトとコンテキストの設計モデルカスタマイズの使用タイミングモデルの調整ファインチューニングパラメータ効率の良いファインチューニング低ランク適応Kubernetes 上でのチューニングジョブの実行Kubeflow Trainerその他のフレームワーク教訓
7. ジョブスケジューリングの最適化
Kubernetesスケジューリングの最適化コア Kubernetes スケジューリングリソース・ビンパッキング戦略デスケジューラによる動的スケジューリングギャングスケジューリングPyTorch Rendezvous と Gang スケジューリングギャングスケジューリング解決策の比較トポロジー認識スケジューリングトポロジー認識型スケジューリング解決策の比較クォータ管理とマルチテナント：GPU as a Serviceクォータ管理とマルチテナント解決策の比較分散トレーニングのためのネットワーク最適化GPUコミュニケーションのためのネットワーク技術比較Kubernetesにおけるセカンダリネットワークインタフェースの利用HPCとKubernetesの橋渡し：SlurmとSlinkyトレーニング用ストレージトレーニングジョブのセキュリティRay のセキュリティガイドラインPyTorch のセキュリティガイドライントレーニングジョブの可観測性分散トレーニングのためのメトリック収集分散ワーカー全体でのロギング分散トレーニング操作のトレース得られた教訓
IV. AI駆動型アプリケーション
8. AI駆動型アプリケーション
アーキテクチャパターンKubernetes ワークロードの種類チャットアプリケーションバックエンド AI サービス検索拡張生成RAG 構成要素ドキュメント取り込みユーザクエリ処理Kubernetes上のRAGエージェント型ワークフローエージェント型フレームワークとランタイムOpenAIのレスポンスAPIKubernetes上のエージェントマルチエージェントシステム環境エージェント得られた教訓
9. エージェント型アプリケーションの実稼働環境での運用
モデルコンテキストプロトコルMCPセキュリティエージェントのなりすまし（トークンパススルー）サービスアカウント委譲OAuth2トークン交換による委任されたアイデンティティSPIFFE/SPIRE による相互TLS (ゼロトラスト)エージェント間プロトコルA2AはMCPを補完するA2Aの概要Kubernetes 上での A2A の実行エージェント状態管理状態保存パターンキーバリューストアとデータベースの選択長時間実行エージェントのためのチェックポイント学んだ教訓
あとがき
取り上げた内容結びの言葉
索引
著者紹介

Content preview from Kubernetes上での生成AI (Japanese Edition)

第2章モデルデータ

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

Kubernetes上でLLMsを実行する際の最も根本的な課題の一つは、モデルデータの膨大なサイズを管理することだ。LLMsのサイズは数ギガバイトからほぼ1テラバイトに及ぶこともあり、このデータをランタイムがアクセス可能なKubernetesクラスタに効率的に取り込むには慎重な検討が必要となる。

これらのモデルの大部分はモデルパラメータで構成されており、非常に巨大な規模になることがある。表2-1には、実際に実行可能な主要なモデルのパラメータ数とサイズをリストした。他にも多数存在するが、この選択だけでも幅広いバリエーションが確認できる。オンデマンド利用には非現実的な大規模モデルから、自身のクラスターで実行可能で必要時に容易にダウンロードできる軽量モデルまで様々だ。

表 2-1. オープンソースモデルとそのサイズ
名前	ベンダ	パラメータ	サイズ
Llama 4 Maverick	Meta	4000億（MoE、170億がアクティブ）	約800GB
DeepSeek-V3	DeepSeek	6710億（MoE、370億アクティブ）	約700GB
Llama 3.1405B	Meta	4050億	約750ギガバイト
Qwen3-235B	アリババ	2350億（MoE、220億アクティブ）	約118ギガバイト
ミストラル 8x220億	ミストラル	1410億（MoE、390億アクティブ）	約88GB
GPT-OSS 120B	OpenAI	1170億（MoE、50億アクティブ）	約70GB
Gemma 2 270億	Google	270億	約54ギガバイト
グラニット 130億	IBM	130億	約26ギガバイト
ファルコン 211B	TII	110億	約22ギガバイト
ミストラル 7B	ミストラル	70億	約14GB

さらに小規模なモデルであっても、クラスター内で効率的に管理する際にはKubernetes管理者にとって重大な課題となる。これらの大規模データセットを効果的に保存・整理する方法を理解することは、LLM運用を成功させる上で極めて重要だ。

本章では、Kubernetesクラスタ内でデータ集約型成果物を効率的に管理する方法を探る。多くの場合、機械学習モデルは第1章で説明した推論サービスからアクセスされる不透明な箱として扱える。しかし、これらのモデルを配布するパッケージ形式を理解することは、統合を成功させる上で依然として価値がある。次のセクションでは、最も重要なLLMストレージ形式の概要を説明する。

LLMs運用におけるもう一つの重要な側面は、モデルデータの所在を発見し検索する方法である。「モデルレジストリ」で論じるモデルレジストリの概念は、モデル発見とアクセスに対する実用的な解決策を提供する。

最後に、モデルはクラスターにダウンロードされて初めて使用可能になる。「Kubernetes におけるモデルデータへのアクセス」では、モデルデータを効率的に取得・アクセスするための Kubernetes ネイティブメソッドを概説する。

このロードマップを念頭に、まずLLMデータがどのようにパッケージ化され保存されるかを検証しよう。

モデルデータ保存形式

のLLMを扱う際にまず気付くのは、その膨大なサイズだ。パラメータ数は数十億単位で測定される。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572344641

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Kubernetes上での生成AI (Japanese Edition)

by Roland Huß, Daniele Zonca

第2章モデルデータ

モデルデータ保存形式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.