Skip to Content
AIシステム性能エンジニアリング (Japanese Edition)
book

AIシステム性能エンジニアリング (Japanese Edition)

by Chris Fregly
November 2025
Intermediate to advanced
1060 pages
18h 47m
Japanese
O'Reilly Media, Inc.
Content preview from AIシステム性能エンジニアリング (Japanese Edition)

GPUベース環境におけるOS 、Docker、Kubernetesのチューニング

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

高度に最適化されたGPUコードやライブラリがあっても、システムレベルのボトルネックが大規模AIトレーニングの性能を制限することがある。最速のGPUも、データや命令を供給する環境次第で真価を発揮できない。本章では、GPUの性能を最大限に引き出すためのオペレーティングシステムとコンテナランタイムの調整方法を解説する。

まず、GPUソフトウェアスタックの基礎を探る。次に、NUMAアフィニティやヒュージページといった主要なCPUとメモリの最適化に踏み込む。これらは、ストレージからCPUを経てGPUへデータが効率的に流れることを保証する。並行して、パーシステンスモード、マルチプロセスサービス(MPS)、マルチインスタンスGPU(MIG)パーティションといった重要なGPUドライバ設定について議論する。これらはオーバーヘッドを減らし、リソースを効果的に同期させることで、GPUの最大利用率を維持するのに役立つ。

NVIDIA Container Toolkit、Container Runtime、Kubernetes Topology Manager、Kubernetes GPU Operatorといった解決策を活用すれば、GPU環境向けの統一された高度に最適化されたソフトウェアスタックを作成できる。これらの解決策は、単一ノードからマルチノードGPU環境まで、効率的なリソース割り当てとワークロードスケジューリングを実現し、GPU能力を完全に活用することを保証する。

この過程で、これらの最適化が重要な理由に対する直感的な理解が得られる。本質的に、それらは遅延を最小化し、スループットを最大化し、GPUが常にデータで供給されピーク性能で動作することを保証する。その結果、トレーニングと推論の両ワークロードにおいて、大幅な性能向上と高いグッドスループット率を実現する堅牢で拡張性のあるシステムが構築される。

オペレーティングシステム

オペレーティングシステム(OS)は、全てが動作する基盤である。GPUサーバは通常、Ubuntu Server LTSやRed HatなどのLinuxディストリビューションを、最新のGPUハードウェアをサポートする更新済みカーネルと共に実行する。NVIDIAドライバーはカーネルモジュールをインストールし、/dev/nvidia0/dev/nvidia1/dev/nvidia2といったデバイスファイルを生成する。各GPUごとに1つずつである。ドライバーはまた、ドライバー制御操作用の/dev/nvidiactl 、統一仮想メモリ用の/dev/nvidia-uvm 、モード設定とバッファ管理用の/dev/nvidia-modeset も作成する。

OSはCPUスケジューリング、メモリ、ネットワーク、ストレージを管理する。これらは全てGPUスループット向上のために調整されるべきだ。したがってOSはGPUタスクへの干渉を避けるよう設定される必要がある。例えばGPUノードではスワッピングを無効化するか、vm.swappiness を0に設定し、GPUワークロードを妨げる可能性のあるOS主導のメモリスワッピングを回避すべきだ。パフォーマンスエンジニアの役割の一部は、これらのOS設定を調整しGPUを最大性能で動作させることにある。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

注目すべきレーダーのトレンド2026年1月 (Japanese Edition)

注目すべきレーダーのトレンド2026年1月 (Japanese Edition)

Mike Loukides

Publisher Resources

ISBN: 0642572281526