book

AIシステム性能エンジニアリング (Japanese Edition)

Name: AIシステム性能エンジニアリング (Japanese Edition)
Author: Chris Fregly
ISBN: 0642572281526

by Chris Fregly

November 2025

Intermediate to advanced

1060 pages

18h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
本書で使用する表記規則コード例の使用O’Reilly オンライン学習問い合わせ先謝辞
導入部およびAIシステムの概要
AIシステム性能エンジニアベンチマークとプロファイリング分散トレーニングと推論のスケーリングリソースの効率的な管理チーム間コラボレーション透明性と再現性DeepSeekは、中国の米国輸出ハードウェア規制にもかかわらず、約6800億パラメータのモデルまでスケールする100兆パラメータモデルに向けてNVIDIAの「ラック型AIスーパーコンピュータ」機械的共感：ハードウェア・ソフトウェアの共同設計「グッドプット」の測定有用なスループット書籍のロードマップと方法論主なポイント結論
2. AIシステムのハードウェア概要
CPUとGPUのスーパーチップNVIDIA Grace CPUNVIDIA Blackwell「デュアルダイ」GPUNVIDIA GPU テンソルコアとトランスフォーマーエンジンストリーミング・マルチプロセッサ、スレッド、ワープウルトラスケール・ネットワーキング多数のGPUを1つとして扱うNVLink と NVSwitchマルチGPUプログラミングNVIDIA SHARP によるネットワーク内集約マルチラックおよびストレージコミュニケーション事前統合済みラックアプライアンス共同パッケージ化光学部品：ネットワークハードウェアの未来演算密度と電力要件液体冷却と空冷の比較実践におけるパフォーマンス監視と利用率共有とスケジューリングハードウェアアップグレードの投資対効果未来を垣間見る：NVIDIAのロードマップBlackwell Ultra と Grace Blackwell Ultraベラ・ルービン・スーパーチップ（2026年）ルービン・ウルトラとヴェラ・ルービン・ウルトラ（2027年）ファインマンGPU（2028年）と毎年倍増する何か主なポイント結論
3. GPUベース環境におけるOS、Docker、Kubernetesのチューニング
オペレーティングシステムNVIDIAソフトウェアスタックGPUドライバーCUDAツールキットとランタイムGPUハードウェア世代間のCUDA前方互換性と後方互換性C++ および Python CUDA ライブラリPyTorch と高レベル AI フレームワークGPU環境向けのCPUとOSの設定NUMA対応とCPUピンニングNUMA 対応メモリ割り当てとメモリ固定透過的な巨大ページスケジューラと割り込みアフィニティ仮想メモリとスワッピングファイルシステムのキャッシュと書き込みバックCPU周波数とCステートホストCPUメモリアロケータの調整パフォーマンスのためのGPUドライバーとランタイム設定GPU パーシステンスモードMPSMIGGPUクロックスピードとECCGPU メモリのオーバーサブスクリプション、断片化、およびメモリ不足時の処理GPU向けコンテナランタイム最適化NVIDIA コンテナツールキットと CUDA の互換性NVIDIA コンテナランタイムコンテナオーバーレイファイルシステムのオーバーヘッド回避コンテナ起動を高速化するためのイメージサイズ削減トポロジー認識型コンテナオーケストレーションとネットワーキングのためのKubernetesKubernetes トポロジマネージャーによるコンテナのオーケストレーションKubernetes と SLURM によるジョブスケジューリングMIGによるGPUのスライシングKubernetesのネットワークコミュニケーションを最適化するKubernetesオーケストレーションのジッターを低減するリソース保証の改善メモリ分離とOOMキラー回避I/O 分離への対応重要なポイント結論
4. 分散ネットワークコミュニケーションの調整
コミュニケーションと計算の並行処理（パイプライン）ストリームを用いた非同期実行コミュニケーション頻度と通信量の削減実践における最大オーバーラップの達成NVIDIA Magnum IO 最適化スタックRDMAによる高速・低オーバーヘッドのデータ転送マルチノード接続性の調整マルチノードコミュニケーションの落とし穴分散マルチGPUコミュニケーションのためのNCCLNCCLにおけるトポロジー認識NCCLコミュニケーションアルゴリズム分散データ並列戦略NCCLコミュニケーターのライフサイクルと環境上の注意点NCCLのプロファイリングとデバッグネットワーク内 SHARP 集約永続的な NCCL ユーザバッファとゼロコピー登録NVIDIAのNIXLと分散推論プリフィルとデコード推論ステージの分離KVキャッシュ転送のためのインテリジェントな相互接続ルーティングコールバック付きNIXL非同期APINIXLによるKVキャッシュのオフロードNIXL と NVIDIA Dynamo のような高性能推論システムNCCL 対 NIXL主なポイント結論
5. GPUベースのストレージI/O最適化
高速ストレージとデータ局所性順次読み取りパターンとランダム読み取りパターンの比較スループット向上のための NVMe とファイルシステムのチューニングNVIDIA GDS の使用cuda-checkpointによるGPU状態のチェックポイント化gdsioによるGDSの測定DeepSeekのFire-Flyerファイルシステム分散型並列ファイルシステムとオブジェクトストアデータの調整、複製、圧縮ストレージI/Oの監視データパイプラインの調整効率的なデータ読み込みと前処理GPU数のスケールアウトに伴うワーカーのスケールアウトNVIDIA DALI によるマルチモーダルデータプロセスNVIDIA NeMo Curator により高品質な大規模 LLM データセットの作成継続的なプロファイリングとチューニングのワークフローコミュニケーション制約型と計算制約型ワークロードの診断主なポイント結論
6. GPUアーキテクチャ、CUDAプログラミング、占有率の最大化
GPUアーキテクチャの理解スレッド、ワープ、ブロック、グリッドブロックあたりのスレッド数とグリッドあたりのブロック数の選択CUDA GPU の後方互換性と前方互換性モデルCUDAプログラミングの復習起動パラメータの設定：グリッドあたりのブロック数とブロックあたりのスレッド数2D および 3D カーネル入力非同期メモリ割り当てとメモリプールGPUメモリ階層の理解統合メモリ高い占有率とGPU利用率を維持する起動境界による占有率の調整NVIDIA Compute Sanitizer による機能の正確性のデバッグルーフラインモデル：演算処理に制約されるワークロードとメモリに制約されるワークロード主なポイント結論
7. GPUメモリアクセスパターンのプロファイリングとチューニング
結合型と非結合型のグローバルメモリアクセスベクトル化されたメモリアクセス共有メモリを用いたタイリングとデータ再利用共有メモリバンク競合の回避ワープシャッフル組み込み関数：共有メモリと明示的な同期を回避する読み取り専用データキャッシュ非同期メモリプリフェッチとテンソルメモリアクセラレータ主なポイント結論
8. 占有率チューニング、ワープ効率性、命令レベル並列性
GPUボトルネックのプロファイリングと診断Nsight Systems タイムラインビューデータパイプラインのプロファイリングとチューニングNsight Compute と Roofline 分析PyTorch プロファイリングと可視化ツールプロファイリングによる分析Nsight Computeによるワープストール原因の分析メモリ関連のストール実行依存関係によるストール実行ユニット競合その他のストール原因達成された占有率とGPU使用率の検査カーネルメモリスループット対ピークHBMメモリ帯域幅カーネル演算スループットとピークGPU FLOPSの比較反復的なプロファイリングとカーネルのボトルネックの特定カーネルの最適化占有率の調整ワークロードに適した占有率を発見する占有率調整のテクニック占有率を最適化するコンパイラヒント占有率 API による最適な起動構成の決定PyTorch による占有率の調整ワープ実行効率性の改善（ワープ発散）ワープ分岐の原因ワープ分岐を回避するテクニックワープ発散のプロファイリングと検出予測を用いて発散を最小化するワープ固有関数による効率的なワープ内コミュニケーションワープレベル効率性におけるPyTorchの考慮点命令レベル並列性の発掘ワープスケジューリングとデュアルイシュー命令ILPと占有率ループ展開、インターリーブ、コンパイラへのヒントレジスタ圧迫のプロファイリングと緩和重要なポイント結論
9. CUDA カーネルの効率性と演算密度の向上
マルチレベルマイクロタイリングとソフトウェアプリフェッチングスレッドブロッククラスタリングを用いたタイリングカーネル融合構造化スパース性再計算とメモリのトレードオフPyTorchと演算強度混合精度とテンソルコアの活用TMEMとTMAによるテンソルコアへのデータ供給TF32と自動混合精度（PyTorch）BF16/FP16、FP8、FP4 低精度推論のためのINT8低精度とDP4A命令トランスフォーマーエンジンと TMEM の詳細CUTLASSを用いた最適な演算強度とテンソルコア性能の実現マイクロ最適化のためのインラインPTXとSASSチューニングDeepSeekによるメモリ割り当て最適化のためのインラインPTXの活用主なポイント結論

10. カーネル内パイプライン、ワープの特殊化、協調的なスレッドブロッククラスタリング
カーネル内パイプラインテクニックCUDA パイプライン API による協調タイリングとダブルバッファリングワープの特殊化と生産者-コンシューマモデルワープの特殊化のための CUDA パイプライン API の使用PyTorch、CUDA パイプライン API、およびワープの特殊化永続カーネルとメガカーネル永続カーネル一般的なワークロード推論のためのメガカーネル永続カーネルとワープの特殊化協調グループ協調グリッド同期と永続カーネル永続カーネルと協調グループを組み合わせる場合スレッドブロッククラスタリングと分散共有メモリスレッドブロックのスウィズリング分散共有メモリスクラッチメモリスレッドブロッククラスタリングの起動協調グループ API によるスレッドブロッククラスタリングの調整スレッドブロックペアスレッドブロッククラスタリングによるグローバルメモリトラフィックの削減スレッドブロッククラスタを用いた効率的なアルゴリズム設計スレッドブロッククラスタを用いたワープの特殊化主なポイント結論
11. カーネル間パイプライン、同期、CUDA ストリーム順序メモリ割り当て
CUDA ストリームによるカーネル実行のオーバーラップストリームを用いたデータ転送と演算のオーバーラップストリーム順序メモリ割り当て器LLMs での CUDA ストリームとストリーム順序メモリ割り当ての使用従来のデフォルトストリーム現代的なスレッドごとのデフォルトストリームデフォルトストリームと明示的（非デフォルト）ストリームの比較デフォルトストリーム使用のベストプラクティスイベントとコールバックによる細粒度の同期クロスストリーム同期のためのCUDAイベントの使用ワープ特殊化（カーネル内）と CUDA ストリーム（カーネル間）によるパイプライン処理スレッドブロッククラスタリングとCUDAストリームを用いたワープ特殊化CUDAストリームを用いたマルチGPU演算とデータ転送のオーバーラッププログラム依存の起動PDLとスレッドブロッククラスタリングをワープ特殊化と組み合わせる主なポイント結論
12. 動的スケジューリング、CUDA グラフ、デバイス起動のカーネルオーケストレーション
原子性ワークキューによる動的スケジューリングアトミックカウンタアトミックキューCUDA グラフPyTorch、推論エンジン、CUDA グラフCUDA グラフのメモリプールCUDA ストリームによる CUDA グラフのキャプチャ動的グラフ更新デバイス起動型CUDAグラフ起動カーネル内永続スケジューリングのためのアトミックキューとデバイス起動型CUDAグラフ条件付きグラフノード動的並列性複数の GPU およびクラスタノードをオーケストレーションする (NVSHMEM)NVSHMEM による GPU 間メモリ共有の微細化NCCLとCUDAグラフによるマルチGPU集合操作の捕捉N-GPU スケーリングのためのパターンルーフラインに基づくスケジューリングとオーケストレーションの決定主なポイント結論
13. PyTorch のプロファイリング、チューニング、スケーリング
NVTXマーカーとプロファイリングツールボトルネックを特定するための PyTorch のプロファイリングPyTorch Profiler の使用Nsight Systems と NVTX タイムラインによるシステムプロファイリング汎用行列乗算（GEMM）のためのカーネル・ルーフライン分析Linux perf による CPU と GPU のプロファイリングPyTorch コンパイラ (torch.compile)PyTorchコンパイラの使用コンパイルとカスタムカーネル記述の比較コンパイルモードとスピード・メモリ・コンパイル時間のトレードオフリージョナルコンパイルコンパイラの性能問題のプロファイリングとデバッグPyTorch 最適化アテンション機構PyTorch アーキテクチャ最適化 (torchao)、量子化、スパース性、およびプルーニングCUDAストリームによる並行処理コミュニケーションと計算のオーバーラッピングイベントを用いたストリーム同期MoEモデルにおけるCUDAストリームの使用CUDAグラフによるカーネル起動オーバーヘッドの削減CUDAグラフのキャプチャとメモリの事前割り当てグラフの再実行CUDAグラフのベストプラクティスCUDA グラフツリー（PyTorch コンパイラ内部）PyTorchにおけるメモリのプロファイリングとチューニングCUDA メモリアロケータの調整メモリ節約のための活性化チェックポイント化パラメータのCPUおよびNVMeへのオフロードSuperOffload：最適化されたCPU-GPUスーパーチップオフロードFSDP 自動チェックポイントとオフロードFSDP と Tensor Parallel およびパイプライン並列性の組み合わせプラグイン可能なメモリアロケーターとクロスGPUデータ転送ピアツーピアDMAとUCXの有効化PyTorchの対称メモリデータ入力パイプラインの最適化PyTorch DistributedによるスケーリングDDPとtorch.compileの連携FSDP と torch.compile の組み合わせtorch.compile によるテンソル並列性とパイプライン並列性TorchTitan、AsyncTP、AutoParallel、SimpleFSDPHTAによるマルチGPUプロファイリング継続的インテグレーションとパフォーマンスベンチマークPyTorch HUD パフォーマンスダッシュボードパフォーマンスベンチマークとMLPerfロギング主なポイント結論
14. PyTorch コンパイラ、OpenAI Triton、XLA バックエンド
PyTorchコンパイラの深掘りバイトコードキャプチャとグラフ抽出のためのTorchDynamoAOT Autograd Fusionによる順方向・逆方向パス処理PrimTorch IR（Prims）簡略化された演算子セットTorchInductor によるバックエンドコード生成TorchInductorによる自動チューニング動的形状と可変シーケンス長PyTorch コンパイラの無効化とイージモードへの復帰生成コードのパフォーマンスヒントとデバッグ数値的正しさや精度のデバッググラフの断絶を説明し最小化するグラフの分割とTorchDynamoのexplain()グラフの再コンパイルを最小化するallow_in_graph で関数とコードブロックを安全とマークするグラフの断絶を扱うためのヒントコンパイラフェーズ、グラフブレーク、パフォーマンスのデバッグOpenAI Triton によるカスタムカーネルTriton プログラミングモデルTriton における共有メモリへのアクセスPyTorch でカスタムカーネルを登録するカーネル起動パラメータの調整Tritonカーネルズの自動チューニング高度な Triton カーネル実装Triton によるワープの特殊化タイル化および永続化 GEMM カーネル（Triton）Triton によるソフトウェアパイプラインとダブルバッファリングTriton Proton Profiler によるプロファイリングPyTorch XLA バックエンド主なポイント結論
15. マルチノード推論、並列性、デコード、ルーティングの最適化
分散型プリフィルおよびデコードアーキテクチャプリフィルとデコードの干渉プリフィルとワーカーノードの独立したスケーリング遅延（TTFT）とスループット（TPOT）への影響KVキャッシュデータ転送とNIXLKubernetes による分散型プリフィルとデコードのデプロイ大規模MoEモデル提供のための並列性戦略テンソル並列性パイプライン並列性エキスパート並列性データ並列性コンテキスト（シーケンス）並列性ハイブリッド並列性推測的デコードと並列トークン生成テクニック二モデル、ドラフトベースの投機的復号とEAGLE単一モデル自己投機的復号メデューサの複数ヘッドによるマルチトークン復号複数リクエストからのデコードステップのインターリーブデコードテクニックの組み合わせと複雑さの評価制約付きデコードのパフォーマンスへの影響MoE推論のための動的ルーティング戦略専門家間コミュニケーションの最適化ロードバランサ、キャパシティファクター、エキスパート複製適応型エキスパートルーティングとリアルタイム監視主なポイント結論
16. 大規模推論におけるプロファイリング、デバッグ、チューニング
推論パフォーマンスのプロファイリング、デバッグ、チューニングシステムメトリックとカウンタの監視Nsight Systems および Nsight Compute によるプロファイリング推論トラブルシューティングの手法フルスタック推論最適化正しさの問題のデバッグ動的バッチ処理、スケジューリング、ルーティング動的バッチ処理継続的バッチ処理継続的スケジューリングストールフリースケジューリング（チャンクプリフィル）遅延を考慮したスケジューリングと動的ルーティングシステムレベルの最適化コミュニケーションと計算のオーバーラップGPU利用率とスループット最大化と遅延とのトレードオフ電力と熱の制約エラー処理メモリKVキャッシュのオフロードとメモリプールの割り当てリアルタイム推論のための量子化アプローチFP16からFP8およびFP4への精度削減重みのみ量子化（GPTQ、AWQ）活性化関数の量子化トレーニング後量子化ワークフロー重みと活性化量の量子化を組み合わせる量子化と非量子化ステップの実行グラフへの統合アプリケーションレベルの最適化プロンプト圧縮プロンプトの浄化プレフィックスキャッシュモデルカスケードと階層型モデルデプロイストリームレスポンスデバウンスとリクエスト結合トークン出力制限とタイムアウト主なポイント結論
17. 推論のための分散型プリフィルとデコードのスケーリング
なぜプリフィル・デコード分離なのか？分散化の利点分散型プリフィルとデコードクラスタープール分散型ルーティングとスケジューリングポリシー分散型プリフィルとデコードの拡張性主なポイント結論
18. 高度なプリフィル・デコードとキーバリューキャッシュのチューニング
最適化されたデコードカーネルFlashMLA (DeepSeek)ThunderMLA（スタンフォード大学）FlexDecoding (PyTorch)KVキャッシュの利用率と管理の調整分散型キーバリューキャッシュキャッシュプールKVキャッシュの再利用とプレフィックス共有最適化されたキーバリューキャッシュメモリレイアウトGPUとCPU-GPUスーパーチップの改良プリフィルとデコード間の高速KVキャッシュ転送KVキャッシュサイズゼロコピーGPU間転送コネクタとデータパスの設計プリフィルとデコードのための異種ハードウェアと並列性戦略演算最適化ハードウェアとメモリ最適化ハードウェアGPUとCPUのコラボレーションによるハイブリッドプリフィルSLOを意識したリクエスト管理とフォールトトレランス早期拒否（アドミッション制御）サービス品質フォールトトレランス動的スケジューリングと負荷分散適応型リソーススケジューリングとホットスポット防止重要なポイント結論
19. 動的かつ適応的な推論エンジン最適化
適応的並列性戦略（TP 対 PP 対ハイブリッド）動的精度変更トランスフォーマー自己注意とMLPパス向けカーネル自動調整動的共有メモリ割り当てと占有率を意識したカーネル選択TTFT高速化のための投機的KVプリフェッチングリアルタイムKVキャッシュ圧縮とポリシー切り替え実行時におけるAIシステム調整のための強化学習エージェント動的メモリ割り当て切り替え（スラブ方式対キャッシュ方式対ストリーム順序方式）ランタイムカーネル性能向上とホットスワップ可能な実装時系列予測を用いたCUDAグラフとキャッシュの継続的プリウォーミング適応型バッチ処理とチャンク単位の事前充填スケジューリング複数のGPUを用いた輻輳認識型およびトポロジー認識型スケジューリングNVLink/NVSwitch トポロジーと帯域幅の制約リアルタイムリンクテレメトリと監視適応型プロセス-GPUマッピングNCCLによる集合コミュニケーションの最適化GPUDirect RDMA によるマルチノードおよびマルチラックコミュニケーションMoEエキスパートによる再バランスと再グループ化動的輻輳対応スケジューリングファインチューニングされたスケジューリングによるNVSwitch転送の座標追加の適応的・動的最適化テクニック動的早期退出ネットワーク入力認識型レイヤースキッピング（DASH）投機的MoEエキスパートルーティングとコミュニケーション削減LazyLLMを用いた動的トークンプルーニングエッジ指向のMoEメモリ予算管理動的量子化と活性化範囲調整主なポイント結論
20. AI支援によるパフォーマンス最適化と数百万GPUクラスターへのスケーリング
AlphaTensor AI発見アルゴリズムによるGPU性能向上（Google DeepMind）DeepSeek-R1（NVIDIA）による自動GPUカーネル最適化最適化されたGPUカーネル生成のための強化学習アプローチ（Predibase）自己改善型AIエージェント（AIフューチャーズプロジェクト）スマートコンパイラと自動化コード最適化AI支援によるリアルタイムシステム最適化とクラスタリング数百万GPUクラスターと100兆パラメータモデルへのスケーリング主なポイント結論
付録. AIシステム性能チェックリスト（175項目以上）
パフォーマンスチューニングとコスト最適化の考え方再現性とドキュメント化のベストプラクティスシステムアーキテクチャとハードウェア計画統合型CPU-GPU「スーパーチップ」アーキテクチャマルチGPUスケーリングと相互接続の最適化オペレーティングシステムとドライバーの最適化GPUリソース管理とスケジューリングI/Oの最適化データプロセスパイプラインパフォーマンスプロファイリング、デバッグ、監視GPUプログラミングとCUDAチューニング最適化カーネルスケジューリングと実行最適化算術最適化と縮小/混合精度高度なチューニング戦略とアルゴリズムの工夫分散トレーニングとネットワーク最適化効率的な推論とサービングマルチノード推論とサービング電力と熱管理結論
索引
著者紹介

Content preview from AIシステム性能エンジニアリング (Japanese Edition)

第17章推論のための分散型プリフィルとデコードのスケーリング

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

前の章で述べたように、LLMの推論は2つの明確な段階に分けられる。によるプリフィル段階とデコード段階だ。プリフィル段階では入力プロンプトをプロセスし、そのプロンプトに対応するモデルの内部キーバリュー（KV）キャッシュを生成する。一方デコード段階では、キャッシュされた値を用いて出力トークンを1つずつ生成する。推測デコードの場合は数個ずつ生成することもある。

これら二つの段階は根本的に異なる性能特性を持つ。プリフィル段階は演算処理に制約され、数千ものトークンに対して並列で大規模な行列乗算を実行し、膨大なFLOPSを消費する。一方、デコード段階はメモリI/Oに制約され、各トークン生成時に大規模なKVキャッシュを読み取り、新たな値を書き込み、メモリ帯域幅に負荷をかける。平たく言えば、プリフィルは高スループットの並列ワークロードであり、デコードは遅延に敏感な順次処理ワークロードである。

初期のLLMサービングシステムは、これら2つのフェーズを同一ハードウェア上の単一パイプラインとして扱っていた。そのため、リクエストのバッチ処理によるスループット優先化により、プレフィルフェーズを重視する傾向があった。しかし対話型アプリケーションが増えるにつれ、の遅延メトリック（最初のトークンまでの時間（TTFT、全トークンのプリフィル遅延）や出力トークンごとの時間（TPOT、トークンごとのデコード遅延））が、純粋なスループットと同等に重要性を持った。両フェーズを同時に処理する場合、単一のGPUベース推論エンジンでTTFTとTPOTを同時に最適化するのは困難だ。

多数のリクエストをバッチ処理するとスループットは向上するが、各リクエストが最も遅いプリフィルを待つためTTFTは悪化する。また、デコード処理が新規プロンプトのプリフィル処理に遅延するためTPOTにも影響する。

モノリシックな推論システムは、最初のトークン生成時間を改善（短縮）する代わりに後続トークンの生成速度を低下させるか、あるいはトークンごとのスループットを改善（増加）させる代わりに新規リクエストに高い初期遅延を課すかの選択を迫られる。極端なケースでは、1つの長いプロンプトがGPUを完全に占有し、他のユーザ向けプロンプト事前読み込み作業を全てブロックする事態も起こり得る。そしてデコードが開始されると、1トークンごとのプロセスでは各トークン生成の間にGPUコアがアイドル状態になる。

これらの問題に対処するため、研究者やエンジニアは両フェーズを分離する方法を模索した。重要な洞察は、プリフィルとデコードが同一ハードウェア（あるいは同種ハードウェア）上で実行する必要がないという点だ。

プリフィルとデコードの分離とは、各フェーズの要件に特化した異なるリソースに割り当てることを意味する。このアイデアはDistServeに関する論文で提唱され、フェーズ間の干渉を排除することでTTFTとTPOTの両方に対する厳格な遅延要件を同時に満たせることが実証された。

DistServeの評価では、プリフィル/デコード分離を行わない最先端のベースラインと比較して、厳格な遅延サービスレベル目標（SLO）内で7.4倍のリクエストを処理できる可能性が示された。これにより、業界のフレームワークはプリフィルとデコードの分離サーバの実験を開始した。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

注目すべきレーダーのトレンド2026年1月 (Japanese Edition)

Publisher Resources

ISBN: 0642572281526

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AIシステム性能エンジニアリング (Japanese Edition)

by Chris Fregly

第17章推論のための分散型プリフィルとデコードのスケーリング

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.