book

人工智能系统性能工程 (Chinese Edition)

Name: 人工智能系统性能工程 (Chinese Edition)
Author: Chris Fregly
ISBN: 0642572281557

by Chris Fregly

November 2025

Intermediate to advanced

1060 pages

14h 20m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书采用的规范代码示例使用规范O’Reilly在线学习联系我们鸣谢
1. 引言与人工智能系统概述
人工智能系统性能工程师基准测试与性能剖析分布式训练与推理的扩展高效资源管理跨团队协作透明度与可重复性DeepSeek在受美国出口硬件限制的中国环境下实现约6800亿参数模型扩展迈向百兆参数模型英伟达的"机架式AI超级计算机"机械共情：软硬件协同设计"有效吞吐量"的衡量标准书籍路线图与方法论核心要点结论
2. AI系统硬件概述
CPU与GPU超级芯片NVIDIA Grace CPUNVIDIA Blackwell “双芯片” GPUNVIDIA GPU张量核心与Transformer引擎流式多处理器、线程与波段超大规模网络将多GPU视为单一实体NVLink与NVSwitch多GPU编程基于NVIDIA SHARP的网络内聚合多机架与存储通信预集成机架设备共封装光模块：网络硬件的未来计算密度与功耗需求液体冷却与空气冷却对比实践中的性能监控与资源利用率资源共享与调度硬件升级的投资回报率未来展望：NVIDIA路线图Blackwell Ultra与Grace Blackwell Ultra维拉·鲁宾超级芯片（2026）鲁宾超极与维拉·鲁宾超极（2027）费曼GPU（2028）与逐年倍增计划关键要点结论
3. 基于GPU环境的操作系统、Docker与Kubernetes调优
操作系统NVIDIA软件堆栈GPU驱动程序CUDA工具包和运行时CUDA 在不同 GPU 硬件世代间的向前和向后兼容性C++ 与 Python CUDA 库PyTorch与高级人工智能框架为GPU环境配置CPU和操作系统NUMA感知与CPU绑定NUMA友好内存分配与内存绑定透明巨页调度器与中断亲和性虚拟内存与交换机制文件系统缓存与写回机制CPU频率与C状态调整主机CPU内存分配器GPU驱动程序和运行时设置以提升性能GPU持久模式MPSMIGGPU时钟速度与ECCGPU 内存超额分配、碎片化和内存不足处理GPU容器运行时优化方案NVIDIA 容器工具包与 CUDA 兼容性NVIDIA 容器运行时避免容器覆盖文件系统开销缩减镜像大小以加速容器启动基于拓扑感知技术的Kubernetes容器编排与网络方案使用Kubernetes拓扑管理器编排容器基于Kubernetes与SLURM的作业调度使用 MIG 技术分割 GPU优化Kubernetes网络通信降低Kubernetes编排抖动提升资源保障能力内存隔离与避免内存不足终结者处理I/O隔离关键要点结论
4. 分布式网络通信调优
通信与计算重叠（流水线处理）基于流的异步执行降低通信频率与数据量实践中实现最大化重叠NVIDIA Magnum IO 优化堆栈基于RDMA的高速低开销数据传输多节点连接性调优多节点通信陷阱NCCL实现分布式多GPU通信NCCL中的拓扑感知NCCL通信算法分布式数据并行策略NCCL通信器生命周期与环境注意事项NCCL性能分析与调试网络内SHARP聚合持久化NCCL用户缓冲区与零拷贝注册NVIDIA的NIXL与解耦式推理分离预填充与解码推理阶段KV缓存传输的智能互连路由带回调的NIXL异步API基于NIXL的KV缓存卸载NIXL与NVIDIA Dynamo等高性能推理系统NCCL与NIXL对比关键要点结论
5. GPU存储I/O优化方案
快速存储与数据局部性顺序读取与随机读取模式对比优化 NVMe 与文件系统以提升吞吐量使用 NVIDIA GDS使用cuda-checkpoint检查GPU状态使用gdsio测量GDSDeepSeek的Fire-Flyer文件系统分布式并行文件系统与对象存储数据调优、复制与压缩监控存储I/O数据管道调优高效数据加载与预处理随着GPU数量扩展而扩展工作进程基于NVIDIA DALI的多模态数据处理使用 NVIDIA NeMo Curator 创建高质量 LLM 数据集持续性能分析与调优工作流诊断通信有界与计算有界工作负载关键要点结论
6. GPU架构、CUDA编程与占用率最大化
理解GPU架构线程、线程组、计算单元与网格选择线程每块与块每网格的尺寸CUDA GPU向后兼容与向前兼容模型CUDA编程复习配置启动参数：网格内块数与块内线程数二维与三维内核输入异步内存分配与内存池理解GPU内存层次结构统一内存保持高占用率和GPU利用率通过启动边界调整占用率使用 NVIDIA 计算检查器调试功能正确性屋顶线模型：计算有界型与内存有界型工作负载关键要点结论
7. GPU内存访问模式的分析与调优
合并与非合并全局内存访问向量内存访问基于共享内存的分块与数据复用避免共享内存银行冲突Warp Shuffle 内置函数：避免共享内存与显式同步只读数据缓存异步内存预取与张量内存加速器关键要点结论
8. 占用率调优、Warp效率与指令级并行性
GPU瓶颈分析与诊断Nsight Systems 时间线视图数据管道的性能分析与调优Nsight计算与屋檐线分析PyTorch 分析器与可视化工具基于分析器的引导式分析使用Nsight Compute分析Warp停滞原因内存相关停顿执行依赖性停顿执行单元争用其他停顿原因检查实际占用率与GPU利用率内核内存吞吐量与峰值HBM内存带宽对比内核计算吞吐量与峰值GPU浮点运算性能迭代分析与确定内核瓶颈优化内核优化占用率为工作负载寻找合适的占用率占用率调优技术编译器优化占用率的提示通过占用率API确定最佳启动配置使用PyTorch调整占用率提升波段执行效率（波段发散性）Warp 发散的原因避免Warp分歧的技术分析与检测Warp分歧运用预测机制最小化分歧利用Warp内置函数实现高效的Warp内通信PyTorch中提升Warp级效率的考量挖掘指令级并行性线程调度与双指令发射指令级并行与占用率循环展开、交错执行与编译器提示寄存器压力分析与缓解关键要点结论
9. 提升CUDA内核效率与运算密集度
多级微分块与软件预取基于线程块集群的分块技术内核融合结构化稀疏性重新计算与内存权衡PyTorch与运算密集度混合精度计算与张量核心利用通过 TMEM 和 TMA 为张量核心供料TF32与自动混合精度（PyTorch）BF16/FP16、FP8 与 FP4 缩减精度INT8精度缩减与DP4A指令用于推理深度解析Transformer引擎与TMEM运用CUTLASS实现最佳算术强度与张量核心性能内联PTX与SASS调优实现微优化DeepSeek利用内联PTX实现内存分配优化核心要点结论

10. 内核流水线、线程组特化与协同线程块集群
内核流水线技术基于CUDA管道API的协同分块与双缓冲技术线程组特化与生产者-消费者模型利用CUDA管道API实现Warp特化PyTorch、CUDA管道API与Warp特化持久内核与巨型内核持久内核的常见工作负载用于推理的巨核持久化内核与Warp特化协作组协作网格同步与持久化内核何时结合持久内核与协作组线程块集群与分布式共享内存线程块交换分布式共享内存临时存储器启动线程块集群使用协作组 API 协调线程块集群线程块对通过线程块集群减少全局内存传输基于线程块集群的高效算法设计基于线程块集群的Warp特化关键要点结论
11. 跨内核流水线、同步机制与CUDA流序内存分配
利用CUDA流实现内核执行重叠利用流实现计算与数据传输的重叠流序内存分配器在LLMs中结合使用CUDA流与流序内存分配器传统默认流现代每线程默认流默认流与显式（非默认）流的对比默认流使用的最佳实践基于事件与回调的精细化同步使用CUDA事件实现跨流同步基于Warp特化（内核内）与CUDA流（内核间）的流水线处理基于线程块集群与CUDA流的Warp特化基于CUDA流的多GPU计算与数据传输重叠程序化依赖启动结合PDL与线程块集群实现流特化关键要点结论
12. 动态调度、CUDA图与设备驱动的内核协调机制
基于原子工作队列的动态调度原子计数器原子队列CUDA 图PyTorch、推理引擎与CUDA图CUDA图的内存池使用CUDA流捕获CUDA图动态图更新设备启动的CUDA图启动原子队列与设备启动的CUDA图用于内核持久调度条件图节点动态并行性跨多个GPU和集群节点协调（NVSHMEM）基于NVSHMEM的精细化GPU间内存共享使用NCCL和CUDA图捕获多GPU集体操作N-GPU扩展模式屋檐线引导的调度与协调决策关键要点结论
13. PyTorch的性能分析、调优与扩展
NVTX马克笔与性能分析工具通过PyTorch性能分析识别瓶颈使用PyTorch Profiler基于Nsight Systems与NVTX Timelines的系统性能分析通用矩阵乘法（GEMM）内核屋顶线分析基于Linux perf的CPU与GPU性能分析PyTorch编译器（torch.compile）使用 PyTorch 编译器编译与编写自定义内核的对比编译模式及其在速度、内存和编译时间上的权衡区域编译编译器性能问题的分析与调试PyTorch优化注意力机制PyTorch架构优化（torchao）、量化、稀疏性与剪枝基于CUDA流的并发处理通信与计算的重叠基于事件的流同步在MoE模型中使用CUDA流利用 CUDA 图减少内核启动开销捕获CUDA图并预分配内存图重放CUDA图的最佳实践CUDA图树（PyTorch编译器内部）PyTorch内存分析与调优调整CUDA内存分配器激活检查点以节省内存将参数卸载至CPU和NVMeSuperOffload：优化CPU-GPU超级芯片卸载FSDP自动检查点与卸载FSDP与张量并行及流水线并行的融合可插拔内存分配器与跨GPU数据传输启用点对点DMA与UCXPyTorch对称内存优化数据输入管道基于PyTorch分布式实现扩展基于 torch.compile 的 DDPFSDP与torch.compile基于 torch.compile 的张量与流水线并行TorchTitan、AsyncTP、AutoParallel与SimpleFSDP基于HTA的多GPU性能分析持续集成与性能基准测试PyTorch HUD性能仪表盘性能基准测试与MLPerf日志记录关键要点结论
14. PyTorch编译器、OpenAI Triton与XLA后端
PyTorch编译器深度解析TorchDynamo实现字节码捕获与图结构提取AOT Autograd Fusion 用于正向与反向传递PrimTorch中间表示（Prims）简化运算符集TorchInductor后端代码生成TorchInductor 自动调优动态形状与可变序列长度禁用 PyTorch 编译器并恢复为即时模式性能优化建议与生成代码调试数值正确性与精度的调试解析与最小化图中断图断点与TorchDynamo的explain()方法最小化图重新编译使用 allow_in_graph 标记安全函数与代码块处理图中断的技巧调试编译器阶段、图中断与性能使用OpenAI Triton编写自定义内核Triton 编程模型在 Triton 中访问共享内存使用PyTorch注册自定义内核调整内核启动参数Triton内核自动调优高级Triton内核实现Triton中的Warp特化Triton中的分块与持久化GEMM内核Triton 中的软件流水线与双缓冲技术使用Triton Proton Profiler进行性能分析PyTorch XLA 后端关键要点结论
15. 多节点推理、并行化、解码与路由优化
解耦预填充与解码架构预填充-解码干扰独立扩展预填充节点与工作节点对延迟（TTFT）和吞吐量（TPOT）的影响KV缓存数据传输与NIXL使用Kubernetes部署解耦预填充与解码大规模MoE模型服务的并行策略张量并行性流水线并行性专家并行性数据并行性上下文（序列）并行性混合并行性推测性解码与并行令牌生成技术双模型、基于草稿的投机性解码与EAGLE单模型自投机解码利用美杜莎多头实现的多令牌解码交错处理多请求的解码步骤解码技术组合与复杂度评估受限解码性能影响面向MoE推理的动态路由策略专家通信优化负载均衡、容量因子与专家复制自适应专家路由与实时监控关键要点结论
16. 大规模推理的性能分析、调试与优化
推理性能分析、调试与优化监控系统指标与计数器使用Nsight Systems和Nsight Compute进行性能分析推理故障排除方案全栈推理优化正确性问题调试动态分批处理、调度与路由动态批处理连续批处理连续调度无停滞调度（分块预填充）延迟感知调度与动态路由系统级优化通信与计算重叠最大化GPU利用率与吞吐量与延迟的权衡功耗与热量约束错误处理内存KV缓存卸载与内存池分配实时推理的量化方法精度降低：从FP16到FP8和FP4仅权重量化（GPTQ、AWQ）激活函数量化训练后量化工作流结合权重与激活量化将量化-去量化步骤融合至执行图应用层优化prompt压缩prompt清理前缀缓存模型级联与分层模型部署流式响应防抖动与请求合并令牌输出限制与超时关键要点结论
17. 扩展分布式预填充与解码以支持推理
为何采用预填充-解码解耦？解耦优势解耦预填充与解码集群池解耦路由与调度策略解耦预填充与解码的可扩展性关键要点结论
18. 高级预填充-解码与键值缓存调优
优化解码内核FlashMLA（DeepSeek）ThunderMLA（斯坦福大学）FlexDecoding（PyTorch）调优KV缓存利用率与管理解耦式键值缓存池KV缓存复用与前缀共享优化键值缓存内存布局GPU 与 CPU-GPU 超级芯片改进预填充与解码间快速键值缓存传输KV缓存容量零拷贝GPU间传输连接器与数据路径设计预填充与解码的异构硬件与并行策略计算优化型与内存优化型硬件GPU-CPU协同混合预填充支持服务水平目标的请求管理与容错机制早期拒绝（接入控制）服务质量容错动态调度与负载均衡自适应资源调度与热点预防关键要点结论
19. 动态自适应推理引擎优化
自适应并行策略（TP与PP与混合模式对比）动态精度切换针对Transformer自注意力与MLP路径的内核自动调优动态共享内存分配与占用感知内核选择投机性KV预取以加速TTFT实时KV缓存压缩与策略切换强化学习代理实现运行时AI系统调优动态内存分配切换（区块分配 vs 缓存分配 vs 流式分配）运行时内核性能优化与热插拔实现方案基于时间序列预测的CUDA图与缓存持续预加载自适应分批处理与分块预填充调度基于拥塞感知与拓扑感知的多GPU调度NVLink/NVSwitch 拓扑结构与带宽限制实时链路遥测与监控自适应进程-GPU映射基于NCCL的集体通信优化基于GPUDirect RDMA的多节点与多机架通信基于MoE的专家重新平衡与重组动态拥塞感知调度基于精细调优调度的NVSwitch传输协调额外的自适应与动态优化技术动态早期退出网络输入感知层跳过机制（DASH）投机性MoE专家路由与通信减量基于LazyLLM的动态令牌修剪面向边缘的MoE内存预算动态量化与激活范围调整关键要点结论
20. 基于AI的性能优化与千万级GPU集群扩展方案
AlphaTensor人工智能发现算法提升GPU性能（谷歌DeepMind）基于DeepSeek-R1（NVIDIA）的GPU内核自动化优化强化学习生成优化GPU内核方法（Predibase）自我进化人工智能代理（AI Futures项目）智能编译器与自动化代码优化AI辅助实时系统优化与集群运维向千万级GPU集群与百万亿参数模型扩展关键要点结论
附录. AI系统性能检查清单（175+项）
性能调优与成本优化思维模式可重复性与文档最佳实践系统架构与硬件规划统一的CPU-GPU“超级芯片”架构多GPU扩展与互连优化操作系统与驱动程序优化GPU资源管理与调度I/O 优化数据处理管道性能分析、调试与监控GPU编程与CUDA调优优化内核调度与执行优化算术优化与缩减/混合精度高级调优策略与算法技巧分布式训练与网络优化高效推理与服务多节点推理与服务功耗与热管理结论
索引
关于作者

Content preview from 人工智能系统性能工程 (Chinese Edition)

第6章 GPU 架构、CUDA编程与占用率最大化

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

本章将首先回顾单指令多线程（SIMT）执行模型，并阐述如何通过波束、线程块和网格将基于GPU的算法映射到流式多处理器（SM）上。

我们将回顾现代NVIDIA GPU上的SIMT执行模型，包括warp、线程块和网格如何映射到SM。随后深入探讨CUDA编程模式，解析片上内存层次结构（寄存器文件、共享/L1缓存、L2缓存、HBM3e），并演示GPU异步数据传输能力——包括张量内存加速器（TMA）及作为张量核心运算累加器的张量内存（TMEM）。

同时将引入屋顶线分析法，用于识别计算有界型与内存有界型内核。这些基础知识将为现代GPU系统突破理论峰值吞吐量上限提供关键路径。

理解GPU架构

与优化实现低延迟单线程性能的CPU不同，GPU是为并行运行数千个线程而设计的吞吐量优化处理器。图6-1展示了CPU与GPU之间简单的CUDA编程流程。

Diagram illustrating a simple CUDA programming flow between CPU and GPU, showing the sequence of loading data, copying to GPU, executing the kernel, copying results back, and using the results on the CPU.

初始阶段，主机将数据加载至CPU内存。随后将数据从CPU复制到GPU内存。调用GPU内存中的数据运行GPU内核后，CPU将结果从GPU内存复制回CPU内存。此时结果数据已返回CPU进行后续处理。

GPU依赖大规模并行性来隐藏数据传输延迟，例如图6-1所示的CPU-GPU数据传输。每个GPU包含多个SM单元，其功能大致类似于CPU核心，但经过并行化优化。在Blackwell架构中，每个SM最多可管理64个warp（32个线程组）。

每块GPU包含多个SM单元——类似于CPU核心但针对吞吐量进行优化。在现代GPU上，每个SM可同时跟踪多达64个线程组（2048个线程）。Blackwell GPU的每个SM配备64K个32位寄存器（总计256KB）及256KB的L1缓存/共享内存。其中最多可配置228KB（可用227KB）SRAM作为每个SM的用户管理共享内存。任意单线程块最多可请求227KB动态共享内存（其中1KB由CUDA预留）。这些特性使SM能够支持GPU的高线程级并行度。

在Blackwell SM内部，多个线程组调度器向可用流水线发出指令；四个独立的线程组调度器允许每个周期最多四个线程组向流水线发出指令。此外，每个调度器支持双指令发射，可为每个线程组同时发出两条独立指令（例如一条算术运算和一条内存操作）。需注意双指令发射必须来自同一线程组，不可跨线程组。

在最佳情况下，每个调度器可每周期让一个流式单元并发发出指令，实现每周期四个流式单元的并行执行。如图6-2所示，当采用指令混合执行时，这将进一步提升吞吐量。

Diagram illustrating the structure of a Blackwell Streaming Multiprocessor (SM) with four independent warp schedulers, each capable of issuing one warp instruction per cycle, featuring INT32, FP32, and Tensor Core units.

在此架构中，每个SM被划分为四个独立调度分区——各分区配备专属的波段调度器和调度逻辑。可将SM视为共享片上资源的四个"微型SM"。该设计使硬件能在每个时钟周期内从最多四个不同波段中选取就绪波段并发出指令。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572281557

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

人工智能系统性能工程 (Chinese Edition)

by Chris Fregly

第6章 GPU 架构、CUDA编程与占用率最大化

理解GPU架构

图6-1. 简单 CUDA编程流程

图6-2. Blackwell流处理器单元包含四个独立的线程组调度器，每个调度器每周期可发出一个线程组指令，并支持双指令发射（即每个调度器可同时发出一个数学运算和一个内存操作指令）

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.