book

人工智能系统性能工程 (Chinese Edition)

Name: 人工智能系统性能工程 (Chinese Edition)
Author: Chris Fregly
ISBN: 0642572281557

by Chris Fregly

November 2025

Intermediate to advanced

1060 pages

14h 20m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书采用的规范代码示例使用规范O’Reilly在线学习联系我们鸣谢
1. 引言与人工智能系统概述
人工智能系统性能工程师基准测试与性能剖析分布式训练与推理的扩展高效资源管理跨团队协作透明度与可重复性DeepSeek在受美国出口硬件限制的中国环境下实现约6800亿参数模型扩展迈向百兆参数模型英伟达的"机架式AI超级计算机"机械共情：软硬件协同设计"有效吞吐量"的衡量标准书籍路线图与方法论核心要点结论
2. AI系统硬件概述
CPU与GPU超级芯片NVIDIA Grace CPUNVIDIA Blackwell “双芯片” GPUNVIDIA GPU张量核心与Transformer引擎流式多处理器、线程与波段超大规模网络将多GPU视为单一实体NVLink与NVSwitch多GPU编程基于NVIDIA SHARP的网络内聚合多机架与存储通信预集成机架设备共封装光模块：网络硬件的未来计算密度与功耗需求液体冷却与空气冷却对比实践中的性能监控与资源利用率资源共享与调度硬件升级的投资回报率未来展望：NVIDIA路线图Blackwell Ultra与Grace Blackwell Ultra维拉·鲁宾超级芯片（2026）鲁宾超极与维拉·鲁宾超极（2027）费曼GPU（2028）与逐年倍增计划关键要点结论
3. 基于GPU环境的操作系统、Docker与Kubernetes调优
操作系统NVIDIA软件堆栈GPU驱动程序CUDA工具包和运行时CUDA 在不同 GPU 硬件世代间的向前和向后兼容性C++ 与 Python CUDA 库PyTorch与高级人工智能框架为GPU环境配置CPU和操作系统NUMA感知与CPU绑定NUMA友好内存分配与内存绑定透明巨页调度器与中断亲和性虚拟内存与交换机制文件系统缓存与写回机制CPU频率与C状态调整主机CPU内存分配器GPU驱动程序和运行时设置以提升性能GPU持久模式MPSMIGGPU时钟速度与ECCGPU 内存超额分配、碎片化和内存不足处理GPU容器运行时优化方案NVIDIA 容器工具包与 CUDA 兼容性NVIDIA 容器运行时避免容器覆盖文件系统开销缩减镜像大小以加速容器启动基于拓扑感知技术的Kubernetes容器编排与网络方案使用Kubernetes拓扑管理器编排容器基于Kubernetes与SLURM的作业调度使用 MIG 技术分割 GPU优化Kubernetes网络通信降低Kubernetes编排抖动提升资源保障能力内存隔离与避免内存不足终结者处理I/O隔离关键要点结论
4. 分布式网络通信调优
通信与计算重叠（流水线处理）基于流的异步执行降低通信频率与数据量实践中实现最大化重叠NVIDIA Magnum IO 优化堆栈基于RDMA的高速低开销数据传输多节点连接性调优多节点通信陷阱NCCL实现分布式多GPU通信NCCL中的拓扑感知NCCL通信算法分布式数据并行策略NCCL通信器生命周期与环境注意事项NCCL性能分析与调试网络内SHARP聚合持久化NCCL用户缓冲区与零拷贝注册NVIDIA的NIXL与解耦式推理分离预填充与解码推理阶段KV缓存传输的智能互连路由带回调的NIXL异步API基于NIXL的KV缓存卸载NIXL与NVIDIA Dynamo等高性能推理系统NCCL与NIXL对比关键要点结论
5. GPU存储I/O优化方案
快速存储与数据局部性顺序读取与随机读取模式对比优化 NVMe 与文件系统以提升吞吐量使用 NVIDIA GDS使用cuda-checkpoint检查GPU状态使用gdsio测量GDSDeepSeek的Fire-Flyer文件系统分布式并行文件系统与对象存储数据调优、复制与压缩监控存储I/O数据管道调优高效数据加载与预处理随着GPU数量扩展而扩展工作进程基于NVIDIA DALI的多模态数据处理使用 NVIDIA NeMo Curator 创建高质量 LLM 数据集持续性能分析与调优工作流诊断通信有界与计算有界工作负载关键要点结论
6. GPU架构、CUDA编程与占用率最大化
理解GPU架构线程、线程组、计算单元与网格选择线程每块与块每网格的尺寸CUDA GPU向后兼容与向前兼容模型CUDA编程复习配置启动参数：网格内块数与块内线程数二维与三维内核输入异步内存分配与内存池理解GPU内存层次结构统一内存保持高占用率和GPU利用率通过启动边界调整占用率使用 NVIDIA 计算检查器调试功能正确性屋顶线模型：计算有界型与内存有界型工作负载关键要点结论
7. GPU内存访问模式的分析与调优
合并与非合并全局内存访问向量内存访问基于共享内存的分块与数据复用避免共享内存银行冲突Warp Shuffle 内置函数：避免共享内存与显式同步只读数据缓存异步内存预取与张量内存加速器关键要点结论
8. 占用率调优、Warp效率与指令级并行性
GPU瓶颈分析与诊断Nsight Systems 时间线视图数据管道的性能分析与调优Nsight计算与屋檐线分析PyTorch 分析器与可视化工具基于分析器的引导式分析使用Nsight Compute分析Warp停滞原因内存相关停顿执行依赖性停顿执行单元争用其他停顿原因检查实际占用率与GPU利用率内核内存吞吐量与峰值HBM内存带宽对比内核计算吞吐量与峰值GPU浮点运算性能迭代分析与确定内核瓶颈优化内核优化占用率为工作负载寻找合适的占用率占用率调优技术编译器优化占用率的提示通过占用率API确定最佳启动配置使用PyTorch调整占用率提升波段执行效率（波段发散性）Warp 发散的原因避免Warp分歧的技术分析与检测Warp分歧运用预测机制最小化分歧利用Warp内置函数实现高效的Warp内通信PyTorch中提升Warp级效率的考量挖掘指令级并行性线程调度与双指令发射指令级并行与占用率循环展开、交错执行与编译器提示寄存器压力分析与缓解关键要点结论
9. 提升CUDA内核效率与运算密集度
多级微分块与软件预取基于线程块集群的分块技术内核融合结构化稀疏性重新计算与内存权衡PyTorch与运算密集度混合精度计算与张量核心利用通过 TMEM 和 TMA 为张量核心供料TF32与自动混合精度（PyTorch）BF16/FP16、FP8 与 FP4 缩减精度INT8精度缩减与DP4A指令用于推理深度解析Transformer引擎与TMEM运用CUTLASS实现最佳算术强度与张量核心性能内联PTX与SASS调优实现微优化DeepSeek利用内联PTX实现内存分配优化核心要点结论

10. 内核流水线、线程组特化与协同线程块集群
内核流水线技术基于CUDA管道API的协同分块与双缓冲技术线程组特化与生产者-消费者模型利用CUDA管道API实现Warp特化PyTorch、CUDA管道API与Warp特化持久内核与巨型内核持久内核的常见工作负载用于推理的巨核持久化内核与Warp特化协作组协作网格同步与持久化内核何时结合持久内核与协作组线程块集群与分布式共享内存线程块交换分布式共享内存临时存储器启动线程块集群使用协作组 API 协调线程块集群线程块对通过线程块集群减少全局内存传输基于线程块集群的高效算法设计基于线程块集群的Warp特化关键要点结论
11. 跨内核流水线、同步机制与CUDA流序内存分配
利用CUDA流实现内核执行重叠利用流实现计算与数据传输的重叠流序内存分配器在LLMs中结合使用CUDA流与流序内存分配器传统默认流现代每线程默认流默认流与显式（非默认）流的对比默认流使用的最佳实践基于事件与回调的精细化同步使用CUDA事件实现跨流同步基于Warp特化（内核内）与CUDA流（内核间）的流水线处理基于线程块集群与CUDA流的Warp特化基于CUDA流的多GPU计算与数据传输重叠程序化依赖启动结合PDL与线程块集群实现流特化关键要点结论
12. 动态调度、CUDA图与设备驱动的内核协调机制
基于原子工作队列的动态调度原子计数器原子队列CUDA 图PyTorch、推理引擎与CUDA图CUDA图的内存池使用CUDA流捕获CUDA图动态图更新设备启动的CUDA图启动原子队列与设备启动的CUDA图用于内核持久调度条件图节点动态并行性跨多个GPU和集群节点协调（NVSHMEM）基于NVSHMEM的精细化GPU间内存共享使用NCCL和CUDA图捕获多GPU集体操作N-GPU扩展模式屋檐线引导的调度与协调决策关键要点结论
13. PyTorch的性能分析、调优与扩展
NVTX马克笔与性能分析工具通过PyTorch性能分析识别瓶颈使用PyTorch Profiler基于Nsight Systems与NVTX Timelines的系统性能分析通用矩阵乘法（GEMM）内核屋顶线分析基于Linux perf的CPU与GPU性能分析PyTorch编译器（torch.compile）使用 PyTorch 编译器编译与编写自定义内核的对比编译模式及其在速度、内存和编译时间上的权衡区域编译编译器性能问题的分析与调试PyTorch优化注意力机制PyTorch架构优化（torchao）、量化、稀疏性与剪枝基于CUDA流的并发处理通信与计算的重叠基于事件的流同步在MoE模型中使用CUDA流利用 CUDA 图减少内核启动开销捕获CUDA图并预分配内存图重放CUDA图的最佳实践CUDA图树（PyTorch编译器内部）PyTorch内存分析与调优调整CUDA内存分配器激活检查点以节省内存将参数卸载至CPU和NVMeSuperOffload：优化CPU-GPU超级芯片卸载FSDP自动检查点与卸载FSDP与张量并行及流水线并行的融合可插拔内存分配器与跨GPU数据传输启用点对点DMA与UCXPyTorch对称内存优化数据输入管道基于PyTorch分布式实现扩展基于 torch.compile 的 DDPFSDP与torch.compile基于 torch.compile 的张量与流水线并行TorchTitan、AsyncTP、AutoParallel与SimpleFSDP基于HTA的多GPU性能分析持续集成与性能基准测试PyTorch HUD性能仪表盘性能基准测试与MLPerf日志记录关键要点结论
14. PyTorch编译器、OpenAI Triton与XLA后端
PyTorch编译器深度解析TorchDynamo实现字节码捕获与图结构提取AOT Autograd Fusion 用于正向与反向传递PrimTorch中间表示（Prims）简化运算符集TorchInductor后端代码生成TorchInductor 自动调优动态形状与可变序列长度禁用 PyTorch 编译器并恢复为即时模式性能优化建议与生成代码调试数值正确性与精度的调试解析与最小化图中断图断点与TorchDynamo的explain()方法最小化图重新编译使用 allow_in_graph 标记安全函数与代码块处理图中断的技巧调试编译器阶段、图中断与性能使用OpenAI Triton编写自定义内核Triton 编程模型在 Triton 中访问共享内存使用PyTorch注册自定义内核调整内核启动参数Triton内核自动调优高级Triton内核实现Triton中的Warp特化Triton中的分块与持久化GEMM内核Triton 中的软件流水线与双缓冲技术使用Triton Proton Profiler进行性能分析PyTorch XLA 后端关键要点结论
15. 多节点推理、并行化、解码与路由优化
解耦预填充与解码架构预填充-解码干扰独立扩展预填充节点与工作节点对延迟（TTFT）和吞吐量（TPOT）的影响KV缓存数据传输与NIXL使用Kubernetes部署解耦预填充与解码大规模MoE模型服务的并行策略张量并行性流水线并行性专家并行性数据并行性上下文（序列）并行性混合并行性推测性解码与并行令牌生成技术双模型、基于草稿的投机性解码与EAGLE单模型自投机解码利用美杜莎多头实现的多令牌解码交错处理多请求的解码步骤解码技术组合与复杂度评估受限解码性能影响面向MoE推理的动态路由策略专家通信优化负载均衡、容量因子与专家复制自适应专家路由与实时监控关键要点结论
16. 大规模推理的性能分析、调试与优化
推理性能分析、调试与优化监控系统指标与计数器使用Nsight Systems和Nsight Compute进行性能分析推理故障排除方案全栈推理优化正确性问题调试动态分批处理、调度与路由动态批处理连续批处理连续调度无停滞调度（分块预填充）延迟感知调度与动态路由系统级优化通信与计算重叠最大化GPU利用率与吞吐量与延迟的权衡功耗与热量约束错误处理内存KV缓存卸载与内存池分配实时推理的量化方法精度降低：从FP16到FP8和FP4仅权重量化（GPTQ、AWQ）激活函数量化训练后量化工作流结合权重与激活量化将量化-去量化步骤融合至执行图应用层优化prompt压缩prompt清理前缀缓存模型级联与分层模型部署流式响应防抖动与请求合并令牌输出限制与超时关键要点结论
17. 扩展分布式预填充与解码以支持推理
为何采用预填充-解码解耦？解耦优势解耦预填充与解码集群池解耦路由与调度策略解耦预填充与解码的可扩展性关键要点结论
18. 高级预填充-解码与键值缓存调优
优化解码内核FlashMLA（DeepSeek）ThunderMLA（斯坦福大学）FlexDecoding（PyTorch）调优KV缓存利用率与管理解耦式键值缓存池KV缓存复用与前缀共享优化键值缓存内存布局GPU 与 CPU-GPU 超级芯片改进预填充与解码间快速键值缓存传输KV缓存容量零拷贝GPU间传输连接器与数据路径设计预填充与解码的异构硬件与并行策略计算优化型与内存优化型硬件GPU-CPU协同混合预填充支持服务水平目标的请求管理与容错机制早期拒绝（接入控制）服务质量容错动态调度与负载均衡自适应资源调度与热点预防关键要点结论
19. 动态自适应推理引擎优化
自适应并行策略（TP与PP与混合模式对比）动态精度切换针对Transformer自注意力与MLP路径的内核自动调优动态共享内存分配与占用感知内核选择投机性KV预取以加速TTFT实时KV缓存压缩与策略切换强化学习代理实现运行时AI系统调优动态内存分配切换（区块分配 vs 缓存分配 vs 流式分配）运行时内核性能优化与热插拔实现方案基于时间序列预测的CUDA图与缓存持续预加载自适应分批处理与分块预填充调度基于拥塞感知与拓扑感知的多GPU调度NVLink/NVSwitch 拓扑结构与带宽限制实时链路遥测与监控自适应进程-GPU映射基于NCCL的集体通信优化基于GPUDirect RDMA的多节点与多机架通信基于MoE的专家重新平衡与重组动态拥塞感知调度基于精细调优调度的NVSwitch传输协调额外的自适应与动态优化技术动态早期退出网络输入感知层跳过机制（DASH）投机性MoE专家路由与通信减量基于LazyLLM的动态令牌修剪面向边缘的MoE内存预算动态量化与激活范围调整关键要点结论
20. 基于AI的性能优化与千万级GPU集群扩展方案
AlphaTensor人工智能发现算法提升GPU性能（谷歌DeepMind）基于DeepSeek-R1（NVIDIA）的GPU内核自动化优化强化学习生成优化GPU内核方法（Predibase）自我进化人工智能代理（AI Futures项目）智能编译器与自动化代码优化AI辅助实时系统优化与集群运维向千万级GPU集群与百万亿参数模型扩展关键要点结论
附录. AI系统性能检查清单（175+项）
性能调优与成本优化思维模式可重复性与文档最佳实践系统架构与硬件规划统一的CPU-GPU“超级芯片”架构多GPU扩展与互连优化操作系统与驱动程序优化GPU资源管理与调度I/O 优化数据处理管道性能分析、调试与监控GPU编程与CUDA调优优化内核调度与执行优化算术优化与缩减/混合精度高级调优策略与算法技巧分布式训练与网络优化高效推理与服务多节点推理与服务功耗与热管理结论
索引
关于作者

Content preview from 人工智能系统性能工程 (Chinese Edition)

附录. 人工智能系统性能检查清单（175+项）

这份详尽的检查清单涵盖了面向人工智能系统性能工程师的广泛流程级最佳实践与精细化底层调优建议。每个检查项都作为实用指南，帮助工程师从人工智能系统中榨取最大性能与效率。

在调试、性能分析、系统评估及优化过程中，请参考本指南。通过系统性应用这些技巧——从底层操作系统与CUDA调整到集群级优化——AI系统性能工程师可在现代NVIDIA GPU硬件上实现极速执行与成本效益兼顾的运行，支持CUDA、PyTorch、OpenAI Triton、TensorFlow、Keras及JAX等多种AI软件框架。本检查清单中的原则同样适用于未来世代的NVIDIA硬件，包括其GPU、基于ARM的CPU、CPU-GPU超级芯片、网络设备及机架系统.

性能调优与成本优化思维模式

建立务实且可追溯的循环机制——优先实现快速收益再深入优化——将工程投入转化为可量化的投资回报。聚焦最大运行时与成本驱动因素，始终通过前后对比分析验证优化效果。

结合自动调优、框架升级、云定价杠杆和利用率仪表盘实现高投资回报率，记录结果并优先采用简单易维护的解决方案。在精度允许的情况下调整吞吐量敏感的超参数。以下是性能调优与成本优化思维的实践要点：

优先优化高成本环节: 运用80/20法则。找出运行时间的主要贡献者并重点优化。若90%的时间消耗在几个内核或通信阶段，与其对仅占1%时间的环节进行微优化，不如深度优化这些关键环节。各章节的技术应应用于最关键环节。例如，若训练过程包含40%数据加载、50%GPU计算和10%通信，则应优先优化数据加载（可能将开销减半），再考虑GPU内核优化。
前后性能剖析: 每次实施优化时务必测量其效果。这看似显而易见，但实践中常出现基于理论的调整未能奏效甚至适得其反的情况。假设工作负载不受内存限制，但你仍决定为训练任务启用激活检查点功能。这可能因额外计算开销导致内存消耗增加，反而拖慢任务进度。换言之，每次调整后都需对比吞吐量、延迟和利用率等关键指标。可使用内置分析器进行基础计时，例如统计100次迭代器的平均耗时。
建立自适应自动调优反馈循环: 实施基于实时性能反馈的高级自动调优框架——运用强化学习或贝叶斯优化等技术——实现系统参数动态调整。这种方法能使系统持续根据变化的工作负载和运行条件优化配置。
预留优化时间预算: 性能工程是迭代器投入的过程。存在边际效益递减规律——优先采摘低垂果实，如启用AMP和数据预取功能，这类优化往往能轻松实现2倍提升。而编写自定义内核等高难度优化则收益较小。务必权衡工程投入时间与运行时效率及成本节约之间的平衡。对于训练旗舰模型等大型周期性任务，即使5%的提升也值得投入数周调优，因其可能节省数百万成本。而针对一次性或小型工作负载，应聚焦高回报优化并保持务实态度。
持续关注框架升级动态: 我们讨论的许多优化技术（如混合精度、融合内核和分布式算法）在Deep Learning框架与库中持续迭代。升级至最新版PyTorch或TensorFlow有时能立即提升速度，因其整合了新型融合运算或更优启发式算法。充分利用这些改进——它们本质上是零成本收益。请阅读版本说明以了解性能相关变更。
与供应商及社区成员协同设计: 保持与硬件供应商及更广泛性能工程社区的联系，使软件优化与最新硬件架构保持同步。这种协同设计方法能通过定制算法来利用新兴硬件能力，从而发掘显著的性能提升空间。定期查阅厂商文档、参与技术论坛、测试驱动程序或框架的测试版。这些互动往往能发现可融入系统的全新优化方案与最佳实践。整合新型驱动优化、库更新及硬件专属技巧，可带来额外且有时显著的性能提升。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572281557

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

人工智能系统性能工程 (Chinese Edition)

by Chris Fregly

附录. 人工智能系统性能检查清单（175+项）

性能调优与成本优化思维模式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.