book

AIシステム性能エンジニアリング (Japanese Edition)

Name: AIシステム性能エンジニアリング (Japanese Edition)
Author: Chris Fregly
ISBN: 0642572281526

by Chris Fregly

November 2025

Intermediate to advanced

1060 pages

18h 47m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
本書で使用する表記規則コード例の使用O’Reilly オンライン学習問い合わせ先謝辞
導入部およびAIシステムの概要
AIシステム性能エンジニアベンチマークとプロファイリング分散トレーニングと推論のスケーリングリソースの効率的な管理チーム間コラボレーション透明性と再現性DeepSeekは、中国の米国輸出ハードウェア規制にもかかわらず、約6800億パラメータのモデルまでスケールする100兆パラメータモデルに向けてNVIDIAの「ラック型AIスーパーコンピュータ」機械的共感：ハードウェア・ソフトウェアの共同設計「グッドプット」の測定有用なスループット書籍のロードマップと方法論主なポイント結論
2. AIシステムのハードウェア概要
CPUとGPUのスーパーチップNVIDIA Grace CPUNVIDIA Blackwell「デュアルダイ」GPUNVIDIA GPU テンソルコアとトランスフォーマーエンジンストリーミング・マルチプロセッサ、スレッド、ワープウルトラスケール・ネットワーキング多数のGPUを1つとして扱うNVLink と NVSwitchマルチGPUプログラミングNVIDIA SHARP によるネットワーク内集約マルチラックおよびストレージコミュニケーション事前統合済みラックアプライアンス共同パッケージ化光学部品：ネットワークハードウェアの未来演算密度と電力要件液体冷却と空冷の比較実践におけるパフォーマンス監視と利用率共有とスケジューリングハードウェアアップグレードの投資対効果未来を垣間見る：NVIDIAのロードマップBlackwell Ultra と Grace Blackwell Ultraベラ・ルービン・スーパーチップ（2026年）ルービン・ウルトラとヴェラ・ルービン・ウルトラ（2027年）ファインマンGPU（2028年）と毎年倍増する何か主なポイント結論
3. GPUベース環境におけるOS、Docker、Kubernetesのチューニング
オペレーティングシステムNVIDIAソフトウェアスタックGPUドライバーCUDAツールキットとランタイムGPUハードウェア世代間のCUDA前方互換性と後方互換性C++ および Python CUDA ライブラリPyTorch と高レベル AI フレームワークGPU環境向けのCPUとOSの設定NUMA対応とCPUピンニングNUMA 対応メモリ割り当てとメモリ固定透過的な巨大ページスケジューラと割り込みアフィニティ仮想メモリとスワッピングファイルシステムのキャッシュと書き込みバックCPU周波数とCステートホストCPUメモリアロケータの調整パフォーマンスのためのGPUドライバーとランタイム設定GPU パーシステンスモードMPSMIGGPUクロックスピードとECCGPU メモリのオーバーサブスクリプション、断片化、およびメモリ不足時の処理GPU向けコンテナランタイム最適化NVIDIA コンテナツールキットと CUDA の互換性NVIDIA コンテナランタイムコンテナオーバーレイファイルシステムのオーバーヘッド回避コンテナ起動を高速化するためのイメージサイズ削減トポロジー認識型コンテナオーケストレーションとネットワーキングのためのKubernetesKubernetes トポロジマネージャーによるコンテナのオーケストレーションKubernetes と SLURM によるジョブスケジューリングMIGによるGPUのスライシングKubernetesのネットワークコミュニケーションを最適化するKubernetesオーケストレーションのジッターを低減するリソース保証の改善メモリ分離とOOMキラー回避I/O 分離への対応重要なポイント結論
4. 分散ネットワークコミュニケーションの調整
コミュニケーションと計算の並行処理（パイプライン）ストリームを用いた非同期実行コミュニケーション頻度と通信量の削減実践における最大オーバーラップの達成NVIDIA Magnum IO 最適化スタックRDMAによる高速・低オーバーヘッドのデータ転送マルチノード接続性の調整マルチノードコミュニケーションの落とし穴分散マルチGPUコミュニケーションのためのNCCLNCCLにおけるトポロジー認識NCCLコミュニケーションアルゴリズム分散データ並列戦略NCCLコミュニケーターのライフサイクルと環境上の注意点NCCLのプロファイリングとデバッグネットワーク内 SHARP 集約永続的な NCCL ユーザバッファとゼロコピー登録NVIDIAのNIXLと分散推論プリフィルとデコード推論ステージの分離KVキャッシュ転送のためのインテリジェントな相互接続ルーティングコールバック付きNIXL非同期APINIXLによるKVキャッシュのオフロードNIXL と NVIDIA Dynamo のような高性能推論システムNCCL 対 NIXL主なポイント結論
5. GPUベースのストレージI/O最適化
高速ストレージとデータ局所性順次読み取りパターンとランダム読み取りパターンの比較スループット向上のための NVMe とファイルシステムのチューニングNVIDIA GDS の使用cuda-checkpointによるGPU状態のチェックポイント化gdsioによるGDSの測定DeepSeekのFire-Flyerファイルシステム分散型並列ファイルシステムとオブジェクトストアデータの調整、複製、圧縮ストレージI/Oの監視データパイプラインの調整効率的なデータ読み込みと前処理GPU数のスケールアウトに伴うワーカーのスケールアウトNVIDIA DALI によるマルチモーダルデータプロセスNVIDIA NeMo Curator により高品質な大規模 LLM データセットの作成継続的なプロファイリングとチューニングのワークフローコミュニケーション制約型と計算制約型ワークロードの診断主なポイント結論
6. GPUアーキテクチャ、CUDAプログラミング、占有率の最大化
GPUアーキテクチャの理解スレッド、ワープ、ブロック、グリッドブロックあたりのスレッド数とグリッドあたりのブロック数の選択CUDA GPU の後方互換性と前方互換性モデルCUDAプログラミングの復習起動パラメータの設定：グリッドあたりのブロック数とブロックあたりのスレッド数2D および 3D カーネル入力非同期メモリ割り当てとメモリプールGPUメモリ階層の理解統合メモリ高い占有率とGPU利用率を維持する起動境界による占有率の調整NVIDIA Compute Sanitizer による機能の正確性のデバッグルーフラインモデル：演算処理に制約されるワークロードとメモリに制約されるワークロード主なポイント結論
7. GPUメモリアクセスパターンのプロファイリングとチューニング
結合型と非結合型のグローバルメモリアクセスベクトル化されたメモリアクセス共有メモリを用いたタイリングとデータ再利用共有メモリバンク競合の回避ワープシャッフル組み込み関数：共有メモリと明示的な同期を回避する読み取り専用データキャッシュ非同期メモリプリフェッチとテンソルメモリアクセラレータ主なポイント結論
8. 占有率チューニング、ワープ効率性、命令レベル並列性
GPUボトルネックのプロファイリングと診断Nsight Systems タイムラインビューデータパイプラインのプロファイリングとチューニングNsight Compute と Roofline 分析PyTorch プロファイリングと可視化ツールプロファイリングによる分析Nsight Computeによるワープストール原因の分析メモリ関連のストール実行依存関係によるストール実行ユニット競合その他のストール原因達成された占有率とGPU使用率の検査カーネルメモリスループット対ピークHBMメモリ帯域幅カーネル演算スループットとピークGPU FLOPSの比較反復的なプロファイリングとカーネルのボトルネックの特定カーネルの最適化占有率の調整ワークロードに適した占有率を発見する占有率調整のテクニック占有率を最適化するコンパイラヒント占有率 API による最適な起動構成の決定PyTorch による占有率の調整ワープ実行効率性の改善（ワープ発散）ワープ分岐の原因ワープ分岐を回避するテクニックワープ発散のプロファイリングと検出予測を用いて発散を最小化するワープ固有関数による効率的なワープ内コミュニケーションワープレベル効率性におけるPyTorchの考慮点命令レベル並列性の発掘ワープスケジューリングとデュアルイシュー命令ILPと占有率ループ展開、インターリーブ、コンパイラへのヒントレジスタ圧迫のプロファイリングと緩和重要なポイント結論
9. CUDA カーネルの効率性と演算密度の向上
マルチレベルマイクロタイリングとソフトウェアプリフェッチングスレッドブロッククラスタリングを用いたタイリングカーネル融合構造化スパース性再計算とメモリのトレードオフPyTorchと演算強度混合精度とテンソルコアの活用TMEMとTMAによるテンソルコアへのデータ供給TF32と自動混合精度（PyTorch）BF16/FP16、FP8、FP4 低精度推論のためのINT8低精度とDP4A命令トランスフォーマーエンジンと TMEM の詳細CUTLASSを用いた最適な演算強度とテンソルコア性能の実現マイクロ最適化のためのインラインPTXとSASSチューニングDeepSeekによるメモリ割り当て最適化のためのインラインPTXの活用主なポイント結論

10. カーネル内パイプライン、ワープの特殊化、協調的なスレッドブロッククラスタリング
カーネル内パイプラインテクニックCUDA パイプライン API による協調タイリングとダブルバッファリングワープの特殊化と生産者-コンシューマモデルワープの特殊化のための CUDA パイプライン API の使用PyTorch、CUDA パイプライン API、およびワープの特殊化永続カーネルとメガカーネル永続カーネル一般的なワークロード推論のためのメガカーネル永続カーネルとワープの特殊化協調グループ協調グリッド同期と永続カーネル永続カーネルと協調グループを組み合わせる場合スレッドブロッククラスタリングと分散共有メモリスレッドブロックのスウィズリング分散共有メモリスクラッチメモリスレッドブロッククラスタリングの起動協調グループ API によるスレッドブロッククラスタリングの調整スレッドブロックペアスレッドブロッククラスタリングによるグローバルメモリトラフィックの削減スレッドブロッククラスタを用いた効率的なアルゴリズム設計スレッドブロッククラスタを用いたワープの特殊化主なポイント結論
11. カーネル間パイプライン、同期、CUDA ストリーム順序メモリ割り当て
CUDA ストリームによるカーネル実行のオーバーラップストリームを用いたデータ転送と演算のオーバーラップストリーム順序メモリ割り当て器LLMs での CUDA ストリームとストリーム順序メモリ割り当ての使用従来のデフォルトストリーム現代的なスレッドごとのデフォルトストリームデフォルトストリームと明示的（非デフォルト）ストリームの比較デフォルトストリーム使用のベストプラクティスイベントとコールバックによる細粒度の同期クロスストリーム同期のためのCUDAイベントの使用ワープ特殊化（カーネル内）と CUDA ストリーム（カーネル間）によるパイプライン処理スレッドブロッククラスタリングとCUDAストリームを用いたワープ特殊化CUDAストリームを用いたマルチGPU演算とデータ転送のオーバーラッププログラム依存の起動PDLとスレッドブロッククラスタリングをワープ特殊化と組み合わせる主なポイント結論
12. 動的スケジューリング、CUDA グラフ、デバイス起動のカーネルオーケストレーション
原子性ワークキューによる動的スケジューリングアトミックカウンタアトミックキューCUDA グラフPyTorch、推論エンジン、CUDA グラフCUDA グラフのメモリプールCUDA ストリームによる CUDA グラフのキャプチャ動的グラフ更新デバイス起動型CUDAグラフ起動カーネル内永続スケジューリングのためのアトミックキューとデバイス起動型CUDAグラフ条件付きグラフノード動的並列性複数の GPU およびクラスタノードをオーケストレーションする (NVSHMEM)NVSHMEM による GPU 間メモリ共有の微細化NCCLとCUDAグラフによるマルチGPU集合操作の捕捉N-GPU スケーリングのためのパターンルーフラインに基づくスケジューリングとオーケストレーションの決定主なポイント結論
13. PyTorch のプロファイリング、チューニング、スケーリング
NVTXマーカーとプロファイリングツールボトルネックを特定するための PyTorch のプロファイリングPyTorch Profiler の使用Nsight Systems と NVTX タイムラインによるシステムプロファイリング汎用行列乗算（GEMM）のためのカーネル・ルーフライン分析Linux perf による CPU と GPU のプロファイリングPyTorch コンパイラ (torch.compile)PyTorchコンパイラの使用コンパイルとカスタムカーネル記述の比較コンパイルモードとスピード・メモリ・コンパイル時間のトレードオフリージョナルコンパイルコンパイラの性能問題のプロファイリングとデバッグPyTorch 最適化アテンション機構PyTorch アーキテクチャ最適化 (torchao)、量子化、スパース性、およびプルーニングCUDAストリームによる並行処理コミュニケーションと計算のオーバーラッピングイベントを用いたストリーム同期MoEモデルにおけるCUDAストリームの使用CUDAグラフによるカーネル起動オーバーヘッドの削減CUDAグラフのキャプチャとメモリの事前割り当てグラフの再実行CUDAグラフのベストプラクティスCUDA グラフツリー（PyTorch コンパイラ内部）PyTorchにおけるメモリのプロファイリングとチューニングCUDA メモリアロケータの調整メモリ節約のための活性化チェックポイント化パラメータのCPUおよびNVMeへのオフロードSuperOffload：最適化されたCPU-GPUスーパーチップオフロードFSDP 自動チェックポイントとオフロードFSDP と Tensor Parallel およびパイプライン並列性の組み合わせプラグイン可能なメモリアロケーターとクロスGPUデータ転送ピアツーピアDMAとUCXの有効化PyTorchの対称メモリデータ入力パイプラインの最適化PyTorch DistributedによるスケーリングDDPとtorch.compileの連携FSDP と torch.compile の組み合わせtorch.compile によるテンソル並列性とパイプライン並列性TorchTitan、AsyncTP、AutoParallel、SimpleFSDPHTAによるマルチGPUプロファイリング継続的インテグレーションとパフォーマンスベンチマークPyTorch HUD パフォーマンスダッシュボードパフォーマンスベンチマークとMLPerfロギング主なポイント結論
14. PyTorch コンパイラ、OpenAI Triton、XLA バックエンド
PyTorchコンパイラの深掘りバイトコードキャプチャとグラフ抽出のためのTorchDynamoAOT Autograd Fusionによる順方向・逆方向パス処理PrimTorch IR（Prims）簡略化された演算子セットTorchInductor によるバックエンドコード生成TorchInductorによる自動チューニング動的形状と可変シーケンス長PyTorch コンパイラの無効化とイージモードへの復帰生成コードのパフォーマンスヒントとデバッグ数値的正しさや精度のデバッググラフの断絶を説明し最小化するグラフの分割とTorchDynamoのexplain()グラフの再コンパイルを最小化するallow_in_graph で関数とコードブロックを安全とマークするグラフの断絶を扱うためのヒントコンパイラフェーズ、グラフブレーク、パフォーマンスのデバッグOpenAI Triton によるカスタムカーネルTriton プログラミングモデルTriton における共有メモリへのアクセスPyTorch でカスタムカーネルを登録するカーネル起動パラメータの調整Tritonカーネルズの自動チューニング高度な Triton カーネル実装Triton によるワープの特殊化タイル化および永続化 GEMM カーネル（Triton）Triton によるソフトウェアパイプラインとダブルバッファリングTriton Proton Profiler によるプロファイリングPyTorch XLA バックエンド主なポイント結論
15. マルチノード推論、並列性、デコード、ルーティングの最適化
分散型プリフィルおよびデコードアーキテクチャプリフィルとデコードの干渉プリフィルとワーカーノードの独立したスケーリング遅延（TTFT）とスループット（TPOT）への影響KVキャッシュデータ転送とNIXLKubernetes による分散型プリフィルとデコードのデプロイ大規模MoEモデル提供のための並列性戦略テンソル並列性パイプライン並列性エキスパート並列性データ並列性コンテキスト（シーケンス）並列性ハイブリッド並列性推測的デコードと並列トークン生成テクニック二モデル、ドラフトベースの投機的復号とEAGLE単一モデル自己投機的復号メデューサの複数ヘッドによるマルチトークン復号複数リクエストからのデコードステップのインターリーブデコードテクニックの組み合わせと複雑さの評価制約付きデコードのパフォーマンスへの影響MoE推論のための動的ルーティング戦略専門家間コミュニケーションの最適化ロードバランサ、キャパシティファクター、エキスパート複製適応型エキスパートルーティングとリアルタイム監視主なポイント結論
16. 大規模推論におけるプロファイリング、デバッグ、チューニング
推論パフォーマンスのプロファイリング、デバッグ、チューニングシステムメトリックとカウンタの監視Nsight Systems および Nsight Compute によるプロファイリング推論トラブルシューティングの手法フルスタック推論最適化正しさの問題のデバッグ動的バッチ処理、スケジューリング、ルーティング動的バッチ処理継続的バッチ処理継続的スケジューリングストールフリースケジューリング（チャンクプリフィル）遅延を考慮したスケジューリングと動的ルーティングシステムレベルの最適化コミュニケーションと計算のオーバーラップGPU利用率とスループット最大化と遅延とのトレードオフ電力と熱の制約エラー処理メモリKVキャッシュのオフロードとメモリプールの割り当てリアルタイム推論のための量子化アプローチFP16からFP8およびFP4への精度削減重みのみ量子化（GPTQ、AWQ）活性化関数の量子化トレーニング後量子化ワークフロー重みと活性化量の量子化を組み合わせる量子化と非量子化ステップの実行グラフへの統合アプリケーションレベルの最適化プロンプト圧縮プロンプトの浄化プレフィックスキャッシュモデルカスケードと階層型モデルデプロイストリームレスポンスデバウンスとリクエスト結合トークン出力制限とタイムアウト主なポイント結論
17. 推論のための分散型プリフィルとデコードのスケーリング
なぜプリフィル・デコード分離なのか？分散化の利点分散型プリフィルとデコードクラスタープール分散型ルーティングとスケジューリングポリシー分散型プリフィルとデコードの拡張性主なポイント結論
18. 高度なプリフィル・デコードとキーバリューキャッシュのチューニング
最適化されたデコードカーネルFlashMLA (DeepSeek)ThunderMLA（スタンフォード大学）FlexDecoding (PyTorch)KVキャッシュの利用率と管理の調整分散型キーバリューキャッシュキャッシュプールKVキャッシュの再利用とプレフィックス共有最適化されたキーバリューキャッシュメモリレイアウトGPUとCPU-GPUスーパーチップの改良プリフィルとデコード間の高速KVキャッシュ転送KVキャッシュサイズゼロコピーGPU間転送コネクタとデータパスの設計プリフィルとデコードのための異種ハードウェアと並列性戦略演算最適化ハードウェアとメモリ最適化ハードウェアGPUとCPUのコラボレーションによるハイブリッドプリフィルSLOを意識したリクエスト管理とフォールトトレランス早期拒否（アドミッション制御）サービス品質フォールトトレランス動的スケジューリングと負荷分散適応型リソーススケジューリングとホットスポット防止重要なポイント結論
19. 動的かつ適応的な推論エンジン最適化
適応的並列性戦略（TP 対 PP 対ハイブリッド）動的精度変更トランスフォーマー自己注意とMLPパス向けカーネル自動調整動的共有メモリ割り当てと占有率を意識したカーネル選択TTFT高速化のための投機的KVプリフェッチングリアルタイムKVキャッシュ圧縮とポリシー切り替え実行時におけるAIシステム調整のための強化学習エージェント動的メモリ割り当て切り替え（スラブ方式対キャッシュ方式対ストリーム順序方式）ランタイムカーネル性能向上とホットスワップ可能な実装時系列予測を用いたCUDAグラフとキャッシュの継続的プリウォーミング適応型バッチ処理とチャンク単位の事前充填スケジューリング複数のGPUを用いた輻輳認識型およびトポロジー認識型スケジューリングNVLink/NVSwitch トポロジーと帯域幅の制約リアルタイムリンクテレメトリと監視適応型プロセス-GPUマッピングNCCLによる集合コミュニケーションの最適化GPUDirect RDMA によるマルチノードおよびマルチラックコミュニケーションMoEエキスパートによる再バランスと再グループ化動的輻輳対応スケジューリングファインチューニングされたスケジューリングによるNVSwitch転送の座標追加の適応的・動的最適化テクニック動的早期退出ネットワーク入力認識型レイヤースキッピング（DASH）投機的MoEエキスパートルーティングとコミュニケーション削減LazyLLMを用いた動的トークンプルーニングエッジ指向のMoEメモリ予算管理動的量子化と活性化範囲調整主なポイント結論
20. AI支援によるパフォーマンス最適化と数百万GPUクラスターへのスケーリング
AlphaTensor AI発見アルゴリズムによるGPU性能向上（Google DeepMind）DeepSeek-R1（NVIDIA）による自動GPUカーネル最適化最適化されたGPUカーネル生成のための強化学習アプローチ（Predibase）自己改善型AIエージェント（AIフューチャーズプロジェクト）スマートコンパイラと自動化コード最適化AI支援によるリアルタイムシステム最適化とクラスタリング数百万GPUクラスターと100兆パラメータモデルへのスケーリング主なポイント結論
付録. AIシステム性能チェックリスト（175項目以上）
パフォーマンスチューニングとコスト最適化の考え方再現性とドキュメント化のベストプラクティスシステムアーキテクチャとハードウェア計画統合型CPU-GPU「スーパーチップ」アーキテクチャマルチGPUスケーリングと相互接続の最適化オペレーティングシステムとドライバーの最適化GPUリソース管理とスケジューリングI/Oの最適化データプロセスパイプラインパフォーマンスプロファイリング、デバッグ、監視GPUプログラミングとCUDAチューニング最適化カーネルスケジューリングと実行最適化算術最適化と縮小/混合精度高度なチューニング戦略とアルゴリズムの工夫分散トレーニングとネットワーク最適化効率的な推論とサービングマルチノード推論とサービング電力と熱管理結論
索引
著者紹介

Content preview from AIシステム性能エンジニアリング (Japanese Edition)

第16章大規模推論におけるプロファイリング、デバッグ、チューニング

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

大規模なLLM推論クラスターを運用するには、すべてが想定通りに動作していることを確認する監視およびデバッグツールが必要だ。これらはまた、パフォーマンスが目標値から外れた際にボトルネックを迅速に特定するのにも役立つ。

本章では、NVIDIA Nsight SystemsによるプロファイリングやPrometheus/Grafanaによるクラスタ全体のテレメトリなど、これらの複雑なシステムを監視・デバッグする方法を示す。また、GPU使用率、メモリ圧力、テール遅延パーセンタイル、キャッシュヒット率、トークン単位のタイミングなど、主要なメトリクスの収集と解釈方法も説明する。これらは推論エンジンの性能最適化を導く指針となる。

次に運用パフォーマンス調整について議論する。GPU使用率の最適化、推論遅延の低減、大規模クラスタリングでのスループット向上など、実稼働環境で実証済みの手法を含む。これには計算とコミュニケーションのオーバーラッピング、リクエストのスケジューリングとバッチ処理、NVLink・NVSwitch・InfiniBandといった高速相互接続の有効活用といったテクニックが含まれる。

さらに、推論のためのリアルタイム量子化テクニックも比較する。具体的には、汎用後処理量子化（GPTQ）や活性化値を考慮した重み量子化（AWQ）といった実装手法を用いた、モデルを8ビットや4ビット精度に圧縮する方法だ。その過程で、重みのみの量子化とのトレードオフと、重み・活性化値の両方を量子化する手法のトレードオフについても議論する。サービス提供パイプラインにおける量子化の適用について、メモリ使用量の削減とスループットの向上を実現しつつ、モデルの精度を維持するための実践的なガイダンスを提供する。

最後に、低レベルな性能調整を補完するアプリケーションレベルの最適化を検討する。これにはプロンプト圧縮、プレフィックスキャッシュ、重複排除、クエリルーティング（例：フォールバックモデル）、部分出力ストリーミングなどの戦略が含まれる。

推論パフォーマンスのプロファイリング、デバッグ、チューニング

現代のLLM推論エンジンには多くの可動部分がある——特に分散型プリフィルとデコードでは。典型的なリクエストのライフサイクルは図16-1に示すように多くの構成要素を伴う。

Diagram illustrating the lifecycle of a request in a disaggregated prefill and decode LLM inference system, showing interactions between the orchestrator and prefill instances for token management and cache handling.

このような複雑さゆえに、推論パフォーマンスのチューニングワークフローは非常に反復的だ。慎重な調整と継続的な検証が必要となる。

まず、メトリックを観察し、GPUの完全な活用不足や予想以上の遅延など、現在のボトルネックを特定する。次に、「バッチサイズを増やす」や「操作Xのコミュニケーションと計算のオーバーラップを増やす」といった改善仮説を立てる。その後、修正を実装し仮説をテストする。

理想的には、ステージング環境で代表的なワークロードを用い、プロファイリングツールを用いて修正をテストし、変更が期待通りに動作することを検証すべきだ。例えば、操作が適切なメモリと演算のオーバーラップを示していることを確認できる。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

注目すべきレーダーのトレンド2026年1月 (Japanese Edition)

Publisher Resources

ISBN: 0642572281526

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

AIシステム性能エンジニアリング (Japanese Edition)

by Chris Fregly

第16章大規模推論におけるプロファイリング、デバッグ、チューニング

推論パフォーマンスのプロファイリング、デバッグ、チューニング

図16-1. 分散型プリフィルおよびデコードLLM推論システムにおける典型的なリクエストのライフサイクル

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.