book

人工智能系统性能工程 (Chinese Edition)

Name: 人工智能系统性能工程 (Chinese Edition)
Author: Chris Fregly
ISBN: 0642572281557

by Chris Fregly

November 2025

Intermediate to advanced

1060 pages

14h 20m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书采用的规范代码示例使用规范O’Reilly在线学习联系我们鸣谢
1. 引言与人工智能系统概述
人工智能系统性能工程师基准测试与性能剖析分布式训练与推理的扩展高效资源管理跨团队协作透明度与可重复性DeepSeek在受美国出口硬件限制的中国环境下实现约6800亿参数模型扩展迈向百兆参数模型英伟达的"机架式AI超级计算机"机械共情：软硬件协同设计"有效吞吐量"的衡量标准书籍路线图与方法论核心要点结论
2. AI系统硬件概述
CPU与GPU超级芯片NVIDIA Grace CPUNVIDIA Blackwell “双芯片” GPUNVIDIA GPU张量核心与Transformer引擎流式多处理器、线程与波段超大规模网络将多GPU视为单一实体NVLink与NVSwitch多GPU编程基于NVIDIA SHARP的网络内聚合多机架与存储通信预集成机架设备共封装光模块：网络硬件的未来计算密度与功耗需求液体冷却与空气冷却对比实践中的性能监控与资源利用率资源共享与调度硬件升级的投资回报率未来展望：NVIDIA路线图Blackwell Ultra与Grace Blackwell Ultra维拉·鲁宾超级芯片（2026）鲁宾超极与维拉·鲁宾超极（2027）费曼GPU（2028）与逐年倍增计划关键要点结论
3. 基于GPU环境的操作系统、Docker与Kubernetes调优
操作系统NVIDIA软件堆栈GPU驱动程序CUDA工具包和运行时CUDA 在不同 GPU 硬件世代间的向前和向后兼容性C++ 与 Python CUDA 库PyTorch与高级人工智能框架为GPU环境配置CPU和操作系统NUMA感知与CPU绑定NUMA友好内存分配与内存绑定透明巨页调度器与中断亲和性虚拟内存与交换机制文件系统缓存与写回机制CPU频率与C状态调整主机CPU内存分配器GPU驱动程序和运行时设置以提升性能GPU持久模式MPSMIGGPU时钟速度与ECCGPU 内存超额分配、碎片化和内存不足处理GPU容器运行时优化方案NVIDIA 容器工具包与 CUDA 兼容性NVIDIA 容器运行时避免容器覆盖文件系统开销缩减镜像大小以加速容器启动基于拓扑感知技术的Kubernetes容器编排与网络方案使用Kubernetes拓扑管理器编排容器基于Kubernetes与SLURM的作业调度使用 MIG 技术分割 GPU优化Kubernetes网络通信降低Kubernetes编排抖动提升资源保障能力内存隔离与避免内存不足终结者处理I/O隔离关键要点结论
4. 分布式网络通信调优
通信与计算重叠（流水线处理）基于流的异步执行降低通信频率与数据量实践中实现最大化重叠NVIDIA Magnum IO 优化堆栈基于RDMA的高速低开销数据传输多节点连接性调优多节点通信陷阱NCCL实现分布式多GPU通信NCCL中的拓扑感知NCCL通信算法分布式数据并行策略NCCL通信器生命周期与环境注意事项NCCL性能分析与调试网络内SHARP聚合持久化NCCL用户缓冲区与零拷贝注册NVIDIA的NIXL与解耦式推理分离预填充与解码推理阶段KV缓存传输的智能互连路由带回调的NIXL异步API基于NIXL的KV缓存卸载NIXL与NVIDIA Dynamo等高性能推理系统NCCL与NIXL对比关键要点结论
5. GPU存储I/O优化方案
快速存储与数据局部性顺序读取与随机读取模式对比优化 NVMe 与文件系统以提升吞吐量使用 NVIDIA GDS使用cuda-checkpoint检查GPU状态使用gdsio测量GDSDeepSeek的Fire-Flyer文件系统分布式并行文件系统与对象存储数据调优、复制与压缩监控存储I/O数据管道调优高效数据加载与预处理随着GPU数量扩展而扩展工作进程基于NVIDIA DALI的多模态数据处理使用 NVIDIA NeMo Curator 创建高质量 LLM 数据集持续性能分析与调优工作流诊断通信有界与计算有界工作负载关键要点结论
6. GPU架构、CUDA编程与占用率最大化
理解GPU架构线程、线程组、计算单元与网格选择线程每块与块每网格的尺寸CUDA GPU向后兼容与向前兼容模型CUDA编程复习配置启动参数：网格内块数与块内线程数二维与三维内核输入异步内存分配与内存池理解GPU内存层次结构统一内存保持高占用率和GPU利用率通过启动边界调整占用率使用 NVIDIA 计算检查器调试功能正确性屋顶线模型：计算有界型与内存有界型工作负载关键要点结论
7. GPU内存访问模式的分析与调优
合并与非合并全局内存访问向量内存访问基于共享内存的分块与数据复用避免共享内存银行冲突Warp Shuffle 内置函数：避免共享内存与显式同步只读数据缓存异步内存预取与张量内存加速器关键要点结论
8. 占用率调优、Warp效率与指令级并行性
GPU瓶颈分析与诊断Nsight Systems 时间线视图数据管道的性能分析与调优Nsight计算与屋檐线分析PyTorch 分析器与可视化工具基于分析器的引导式分析使用Nsight Compute分析Warp停滞原因内存相关停顿执行依赖性停顿执行单元争用其他停顿原因检查实际占用率与GPU利用率内核内存吞吐量与峰值HBM内存带宽对比内核计算吞吐量与峰值GPU浮点运算性能迭代分析与确定内核瓶颈优化内核优化占用率为工作负载寻找合适的占用率占用率调优技术编译器优化占用率的提示通过占用率API确定最佳启动配置使用PyTorch调整占用率提升波段执行效率（波段发散性）Warp 发散的原因避免Warp分歧的技术分析与检测Warp分歧运用预测机制最小化分歧利用Warp内置函数实现高效的Warp内通信PyTorch中提升Warp级效率的考量挖掘指令级并行性线程调度与双指令发射指令级并行与占用率循环展开、交错执行与编译器提示寄存器压力分析与缓解关键要点结论
9. 提升CUDA内核效率与运算密集度
多级微分块与软件预取基于线程块集群的分块技术内核融合结构化稀疏性重新计算与内存权衡PyTorch与运算密集度混合精度计算与张量核心利用通过 TMEM 和 TMA 为张量核心供料TF32与自动混合精度（PyTorch）BF16/FP16、FP8 与 FP4 缩减精度INT8精度缩减与DP4A指令用于推理深度解析Transformer引擎与TMEM运用CUTLASS实现最佳算术强度与张量核心性能内联PTX与SASS调优实现微优化DeepSeek利用内联PTX实现内存分配优化核心要点结论

10. 内核流水线、线程组特化与协同线程块集群
内核流水线技术基于CUDA管道API的协同分块与双缓冲技术线程组特化与生产者-消费者模型利用CUDA管道API实现Warp特化PyTorch、CUDA管道API与Warp特化持久内核与巨型内核持久内核的常见工作负载用于推理的巨核持久化内核与Warp特化协作组协作网格同步与持久化内核何时结合持久内核与协作组线程块集群与分布式共享内存线程块交换分布式共享内存临时存储器启动线程块集群使用协作组 API 协调线程块集群线程块对通过线程块集群减少全局内存传输基于线程块集群的高效算法设计基于线程块集群的Warp特化关键要点结论
11. 跨内核流水线、同步机制与CUDA流序内存分配
利用CUDA流实现内核执行重叠利用流实现计算与数据传输的重叠流序内存分配器在LLMs中结合使用CUDA流与流序内存分配器传统默认流现代每线程默认流默认流与显式（非默认）流的对比默认流使用的最佳实践基于事件与回调的精细化同步使用CUDA事件实现跨流同步基于Warp特化（内核内）与CUDA流（内核间）的流水线处理基于线程块集群与CUDA流的Warp特化基于CUDA流的多GPU计算与数据传输重叠程序化依赖启动结合PDL与线程块集群实现流特化关键要点结论
12. 动态调度、CUDA图与设备驱动的内核协调机制
基于原子工作队列的动态调度原子计数器原子队列CUDA 图PyTorch、推理引擎与CUDA图CUDA图的内存池使用CUDA流捕获CUDA图动态图更新设备启动的CUDA图启动原子队列与设备启动的CUDA图用于内核持久调度条件图节点动态并行性跨多个GPU和集群节点协调（NVSHMEM）基于NVSHMEM的精细化GPU间内存共享使用NCCL和CUDA图捕获多GPU集体操作N-GPU扩展模式屋檐线引导的调度与协调决策关键要点结论
13. PyTorch的性能分析、调优与扩展
NVTX马克笔与性能分析工具通过PyTorch性能分析识别瓶颈使用PyTorch Profiler基于Nsight Systems与NVTX Timelines的系统性能分析通用矩阵乘法（GEMM）内核屋顶线分析基于Linux perf的CPU与GPU性能分析PyTorch编译器（torch.compile）使用 PyTorch 编译器编译与编写自定义内核的对比编译模式及其在速度、内存和编译时间上的权衡区域编译编译器性能问题的分析与调试PyTorch优化注意力机制PyTorch架构优化（torchao）、量化、稀疏性与剪枝基于CUDA流的并发处理通信与计算的重叠基于事件的流同步在MoE模型中使用CUDA流利用 CUDA 图减少内核启动开销捕获CUDA图并预分配内存图重放CUDA图的最佳实践CUDA图树（PyTorch编译器内部）PyTorch内存分析与调优调整CUDA内存分配器激活检查点以节省内存将参数卸载至CPU和NVMeSuperOffload：优化CPU-GPU超级芯片卸载FSDP自动检查点与卸载FSDP与张量并行及流水线并行的融合可插拔内存分配器与跨GPU数据传输启用点对点DMA与UCXPyTorch对称内存优化数据输入管道基于PyTorch分布式实现扩展基于 torch.compile 的 DDPFSDP与torch.compile基于 torch.compile 的张量与流水线并行TorchTitan、AsyncTP、AutoParallel与SimpleFSDP基于HTA的多GPU性能分析持续集成与性能基准测试PyTorch HUD性能仪表盘性能基准测试与MLPerf日志记录关键要点结论
14. PyTorch编译器、OpenAI Triton与XLA后端
PyTorch编译器深度解析TorchDynamo实现字节码捕获与图结构提取AOT Autograd Fusion 用于正向与反向传递PrimTorch中间表示（Prims）简化运算符集TorchInductor后端代码生成TorchInductor 自动调优动态形状与可变序列长度禁用 PyTorch 编译器并恢复为即时模式性能优化建议与生成代码调试数值正确性与精度的调试解析与最小化图中断图断点与TorchDynamo的explain()方法最小化图重新编译使用 allow_in_graph 标记安全函数与代码块处理图中断的技巧调试编译器阶段、图中断与性能使用OpenAI Triton编写自定义内核Triton 编程模型在 Triton 中访问共享内存使用PyTorch注册自定义内核调整内核启动参数Triton内核自动调优高级Triton内核实现Triton中的Warp特化Triton中的分块与持久化GEMM内核Triton 中的软件流水线与双缓冲技术使用Triton Proton Profiler进行性能分析PyTorch XLA 后端关键要点结论
15. 多节点推理、并行化、解码与路由优化
解耦预填充与解码架构预填充-解码干扰独立扩展预填充节点与工作节点对延迟（TTFT）和吞吐量（TPOT）的影响KV缓存数据传输与NIXL使用Kubernetes部署解耦预填充与解码大规模MoE模型服务的并行策略张量并行性流水线并行性专家并行性数据并行性上下文（序列）并行性混合并行性推测性解码与并行令牌生成技术双模型、基于草稿的投机性解码与EAGLE单模型自投机解码利用美杜莎多头实现的多令牌解码交错处理多请求的解码步骤解码技术组合与复杂度评估受限解码性能影响面向MoE推理的动态路由策略专家通信优化负载均衡、容量因子与专家复制自适应专家路由与实时监控关键要点结论
16. 大规模推理的性能分析、调试与优化
推理性能分析、调试与优化监控系统指标与计数器使用Nsight Systems和Nsight Compute进行性能分析推理故障排除方案全栈推理优化正确性问题调试动态分批处理、调度与路由动态批处理连续批处理连续调度无停滞调度（分块预填充）延迟感知调度与动态路由系统级优化通信与计算重叠最大化GPU利用率与吞吐量与延迟的权衡功耗与热量约束错误处理内存KV缓存卸载与内存池分配实时推理的量化方法精度降低：从FP16到FP8和FP4仅权重量化（GPTQ、AWQ）激活函数量化训练后量化工作流结合权重与激活量化将量化-去量化步骤融合至执行图应用层优化prompt压缩prompt清理前缀缓存模型级联与分层模型部署流式响应防抖动与请求合并令牌输出限制与超时关键要点结论
17. 扩展分布式预填充与解码以支持推理
为何采用预填充-解码解耦？解耦优势解耦预填充与解码集群池解耦路由与调度策略解耦预填充与解码的可扩展性关键要点结论
18. 高级预填充-解码与键值缓存调优
优化解码内核FlashMLA（DeepSeek）ThunderMLA（斯坦福大学）FlexDecoding（PyTorch）调优KV缓存利用率与管理解耦式键值缓存池KV缓存复用与前缀共享优化键值缓存内存布局GPU 与 CPU-GPU 超级芯片改进预填充与解码间快速键值缓存传输KV缓存容量零拷贝GPU间传输连接器与数据路径设计预填充与解码的异构硬件与并行策略计算优化型与内存优化型硬件GPU-CPU协同混合预填充支持服务水平目标的请求管理与容错机制早期拒绝（接入控制）服务质量容错动态调度与负载均衡自适应资源调度与热点预防关键要点结论
19. 动态自适应推理引擎优化
自适应并行策略（TP与PP与混合模式对比）动态精度切换针对Transformer自注意力与MLP路径的内核自动调优动态共享内存分配与占用感知内核选择投机性KV预取以加速TTFT实时KV缓存压缩与策略切换强化学习代理实现运行时AI系统调优动态内存分配切换（区块分配 vs 缓存分配 vs 流式分配）运行时内核性能优化与热插拔实现方案基于时间序列预测的CUDA图与缓存持续预加载自适应分批处理与分块预填充调度基于拥塞感知与拓扑感知的多GPU调度NVLink/NVSwitch 拓扑结构与带宽限制实时链路遥测与监控自适应进程-GPU映射基于NCCL的集体通信优化基于GPUDirect RDMA的多节点与多机架通信基于MoE的专家重新平衡与重组动态拥塞感知调度基于精细调优调度的NVSwitch传输协调额外的自适应与动态优化技术动态早期退出网络输入感知层跳过机制（DASH）投机性MoE专家路由与通信减量基于LazyLLM的动态令牌修剪面向边缘的MoE内存预算动态量化与激活范围调整关键要点结论
20. 基于AI的性能优化与千万级GPU集群扩展方案
AlphaTensor人工智能发现算法提升GPU性能（谷歌DeepMind）基于DeepSeek-R1（NVIDIA）的GPU内核自动化优化强化学习生成优化GPU内核方法（Predibase）自我进化人工智能代理（AI Futures项目）智能编译器与自动化代码优化AI辅助实时系统优化与集群运维向千万级GPU集群与百万亿参数模型扩展关键要点结论
附录. AI系统性能检查清单（175+项）
性能调优与成本优化思维模式可重复性与文档最佳实践系统架构与硬件规划统一的CPU-GPU“超级芯片”架构多GPU扩展与互连优化操作系统与驱动程序优化GPU资源管理与调度I/O 优化数据处理管道性能分析、调试与监控GPU编程与CUDA调优优化内核调度与执行优化算术优化与缩减/混合精度高级调优策略与算法技巧分布式训练与网络优化高效推理与服务多节点推理与服务功耗与热管理结论
索引
关于作者

Content preview from 人工智能系统性能工程 (Chinese Edition)

第9章. 提升 CUDA内核效率与算术密集度

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

即使通过大规模并行和高指令级并行性完全隐藏延迟，内核性能仍可能受限于每次内存访问所完成的有效工作量。算术强度（亦称运算强度）衡量从内存传输的每字节数据所执行的浮点运算次数，即每字节浮点运算次数（FLOPS per byte）。

新一代GPU的计算吞吐量已远超内存带宽。这种差距的扩大意味着提升算术强度比以往任何时候都更为关键。更高的算术强度表明内核每获取一个字节数据就能完成更多计算，这对充分利用GPU的计算能力至关重要。

算术强度是屋顶线性能模型中的关键指标。该模型通过绘制内核性能（FLOPS/秒）与算术强度（FLOPS/字节）的关系曲线，直观呈现硬件在内存带宽与计算吞吐量方面的上限（屋顶）。由此可判断内核是受限于内存传输（内存瓶颈），还是受限于算术逻辑单元吞吐量（计算瓶颈）。

实际操作中，可通过Nsight Compute等工具生成Roofline图表，该工具包含Roofline分析视图。借助这些工具，您可验证内核初始阶段是内存有界还是计算有界，并在优化过程中持续进行性能剖析与改进验证.

优化目标是推动内核向计算瓶颈领域发展，充分利用GPU日益增强的计算能力。屋顶线性能模型能为优化工作提供精准指引。

如前章所示，屋顶线图通过一条水平线表示硬件峰值计算吞吐量（屋顶），一条从原点出发的斜线则表示受内存带宽限制的峰值可达吞吐量。内核的算术强度决定其在x轴上的位置，其性能可参照这些上限进行评估（如图9-1所示）。

Diagram of a Roofline model showing performance in GFLOPS versus operational intensity in FLOPS per byte, illustrating memory and compute bound conditions.

算术强度较低的内核（，即每字节数据移动的数学运算量较少）将有界于内存带宽。此时内核速度受硬件内存带宽制约，因为GPU大部分时间都在等待数据而非进行计算。

相反，算术强度极高的内核（即每传输字节执行大量浮点运算）则会受计算能力限制，因为其正将算术逻辑单元和张量核心的性能推向极限。此时内存带宽利用率成为次要考量因素。

核心目标始终是通过提升全局内存数据传输的每字节运算量（FLOPs/字节），尽可能提高的算术强度。可采用以下技术提升算术强度：使用循环分块复用数据、利用片上L1/共享内存实现数据复用、融合多个内核为单一内核以避免中间结果写入全局内存。

现代编译器框架（如PyTorch的TorchInductor）会自动执行部分优化，以保持计算在GPU上进行、减少片外内存传输并提升有效算术强度。但开发者仍可能需要手动组合这些技术，或编写自定义CUDA内核，例如确保数据在被缓存驱逐前实现最优复用.

还可采用低精度数据类型（FP16、FP8、FP4）减少内存传输量，并利用张量核心提升每秒浮点运算量。综合运用这些方法将提高每字节浮点运算量比率，从而提升算术强度。接下来我们将具体探讨这些技术。

需注意并非所有工作负载都能轻易提升运算强度，这受限于算法特性。但应积极寻找优化机会：改进算法、复用数据、融合运算、增大批量大小，在不改变算法结果（如精度）的前提下提升运算强度。

多级微分块与软件预取

如第七章所述，分块（又称切块或 分区）与数据复用是提升算术强度的有效手段。该章阐明：将矩阵A和B的小子矩阵（分块）加载至共享内存后，每次从全局内存获取的字节数据均可用于执行大量乘累加运算，且速度达到静态随机存取存储器（SRAM）级别。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572281557

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

人工智能系统性能工程 (Chinese Edition)

by Chris Fregly

第9章. 提升 CUDA内核效率与算术密集度

图9-1. 典型屋檐线模型（GFLOP/s与FLOPs/byte的算术强度关系）

多级微分块与软件预取

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.