book

人工智能系统性能工程 (Chinese Edition)

Name: 人工智能系统性能工程 (Chinese Edition)
Author: Chris Fregly
ISBN: 0642572281557

by Chris Fregly

November 2025

Intermediate to advanced

1060 pages

14h 20m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书采用的规范代码示例使用规范O’Reilly在线学习联系我们鸣谢
1. 引言与人工智能系统概述
人工智能系统性能工程师基准测试与性能剖析分布式训练与推理的扩展高效资源管理跨团队协作透明度与可重复性DeepSeek在受美国出口硬件限制的中国环境下实现约6800亿参数模型扩展迈向百兆参数模型英伟达的"机架式AI超级计算机"机械共情：软硬件协同设计"有效吞吐量"的衡量标准书籍路线图与方法论核心要点结论
2. AI系统硬件概述
CPU与GPU超级芯片NVIDIA Grace CPUNVIDIA Blackwell “双芯片” GPUNVIDIA GPU张量核心与Transformer引擎流式多处理器、线程与波段超大规模网络将多GPU视为单一实体NVLink与NVSwitch多GPU编程基于NVIDIA SHARP的网络内聚合多机架与存储通信预集成机架设备共封装光模块：网络硬件的未来计算密度与功耗需求液体冷却与空气冷却对比实践中的性能监控与资源利用率资源共享与调度硬件升级的投资回报率未来展望：NVIDIA路线图Blackwell Ultra与Grace Blackwell Ultra维拉·鲁宾超级芯片（2026）鲁宾超极与维拉·鲁宾超极（2027）费曼GPU（2028）与逐年倍增计划关键要点结论
3. 基于GPU环境的操作系统、Docker与Kubernetes调优
操作系统NVIDIA软件堆栈GPU驱动程序CUDA工具包和运行时CUDA 在不同 GPU 硬件世代间的向前和向后兼容性C++ 与 Python CUDA 库PyTorch与高级人工智能框架为GPU环境配置CPU和操作系统NUMA感知与CPU绑定NUMA友好内存分配与内存绑定透明巨页调度器与中断亲和性虚拟内存与交换机制文件系统缓存与写回机制CPU频率与C状态调整主机CPU内存分配器GPU驱动程序和运行时设置以提升性能GPU持久模式MPSMIGGPU时钟速度与ECCGPU 内存超额分配、碎片化和内存不足处理GPU容器运行时优化方案NVIDIA 容器工具包与 CUDA 兼容性NVIDIA 容器运行时避免容器覆盖文件系统开销缩减镜像大小以加速容器启动基于拓扑感知技术的Kubernetes容器编排与网络方案使用Kubernetes拓扑管理器编排容器基于Kubernetes与SLURM的作业调度使用 MIG 技术分割 GPU优化Kubernetes网络通信降低Kubernetes编排抖动提升资源保障能力内存隔离与避免内存不足终结者处理I/O隔离关键要点结论
4. 分布式网络通信调优
通信与计算重叠（流水线处理）基于流的异步执行降低通信频率与数据量实践中实现最大化重叠NVIDIA Magnum IO 优化堆栈基于RDMA的高速低开销数据传输多节点连接性调优多节点通信陷阱NCCL实现分布式多GPU通信NCCL中的拓扑感知NCCL通信算法分布式数据并行策略NCCL通信器生命周期与环境注意事项NCCL性能分析与调试网络内SHARP聚合持久化NCCL用户缓冲区与零拷贝注册NVIDIA的NIXL与解耦式推理分离预填充与解码推理阶段KV缓存传输的智能互连路由带回调的NIXL异步API基于NIXL的KV缓存卸载NIXL与NVIDIA Dynamo等高性能推理系统NCCL与NIXL对比关键要点结论
5. GPU存储I/O优化方案
快速存储与数据局部性顺序读取与随机读取模式对比优化 NVMe 与文件系统以提升吞吐量使用 NVIDIA GDS使用cuda-checkpoint检查GPU状态使用gdsio测量GDSDeepSeek的Fire-Flyer文件系统分布式并行文件系统与对象存储数据调优、复制与压缩监控存储I/O数据管道调优高效数据加载与预处理随着GPU数量扩展而扩展工作进程基于NVIDIA DALI的多模态数据处理使用 NVIDIA NeMo Curator 创建高质量 LLM 数据集持续性能分析与调优工作流诊断通信有界与计算有界工作负载关键要点结论
6. GPU架构、CUDA编程与占用率最大化
理解GPU架构线程、线程组、计算单元与网格选择线程每块与块每网格的尺寸CUDA GPU向后兼容与向前兼容模型CUDA编程复习配置启动参数：网格内块数与块内线程数二维与三维内核输入异步内存分配与内存池理解GPU内存层次结构统一内存保持高占用率和GPU利用率通过启动边界调整占用率使用 NVIDIA 计算检查器调试功能正确性屋顶线模型：计算有界型与内存有界型工作负载关键要点结论
7. GPU内存访问模式的分析与调优
合并与非合并全局内存访问向量内存访问基于共享内存的分块与数据复用避免共享内存银行冲突Warp Shuffle 内置函数：避免共享内存与显式同步只读数据缓存异步内存预取与张量内存加速器关键要点结论
8. 占用率调优、Warp效率与指令级并行性
GPU瓶颈分析与诊断Nsight Systems 时间线视图数据管道的性能分析与调优Nsight计算与屋檐线分析PyTorch 分析器与可视化工具基于分析器的引导式分析使用Nsight Compute分析Warp停滞原因内存相关停顿执行依赖性停顿执行单元争用其他停顿原因检查实际占用率与GPU利用率内核内存吞吐量与峰值HBM内存带宽对比内核计算吞吐量与峰值GPU浮点运算性能迭代分析与确定内核瓶颈优化内核优化占用率为工作负载寻找合适的占用率占用率调优技术编译器优化占用率的提示通过占用率API确定最佳启动配置使用PyTorch调整占用率提升波段执行效率（波段发散性）Warp 发散的原因避免Warp分歧的技术分析与检测Warp分歧运用预测机制最小化分歧利用Warp内置函数实现高效的Warp内通信PyTorch中提升Warp级效率的考量挖掘指令级并行性线程调度与双指令发射指令级并行与占用率循环展开、交错执行与编译器提示寄存器压力分析与缓解关键要点结论
9. 提升CUDA内核效率与运算密集度
多级微分块与软件预取基于线程块集群的分块技术内核融合结构化稀疏性重新计算与内存权衡PyTorch与运算密集度混合精度计算与张量核心利用通过 TMEM 和 TMA 为张量核心供料TF32与自动混合精度（PyTorch）BF16/FP16、FP8 与 FP4 缩减精度INT8精度缩减与DP4A指令用于推理深度解析Transformer引擎与TMEM运用CUTLASS实现最佳算术强度与张量核心性能内联PTX与SASS调优实现微优化DeepSeek利用内联PTX实现内存分配优化核心要点结论

10. 内核流水线、线程组特化与协同线程块集群
内核流水线技术基于CUDA管道API的协同分块与双缓冲技术线程组特化与生产者-消费者模型利用CUDA管道API实现Warp特化PyTorch、CUDA管道API与Warp特化持久内核与巨型内核持久内核的常见工作负载用于推理的巨核持久化内核与Warp特化协作组协作网格同步与持久化内核何时结合持久内核与协作组线程块集群与分布式共享内存线程块交换分布式共享内存临时存储器启动线程块集群使用协作组 API 协调线程块集群线程块对通过线程块集群减少全局内存传输基于线程块集群的高效算法设计基于线程块集群的Warp特化关键要点结论
11. 跨内核流水线、同步机制与CUDA流序内存分配
利用CUDA流实现内核执行重叠利用流实现计算与数据传输的重叠流序内存分配器在LLMs中结合使用CUDA流与流序内存分配器传统默认流现代每线程默认流默认流与显式（非默认）流的对比默认流使用的最佳实践基于事件与回调的精细化同步使用CUDA事件实现跨流同步基于Warp特化（内核内）与CUDA流（内核间）的流水线处理基于线程块集群与CUDA流的Warp特化基于CUDA流的多GPU计算与数据传输重叠程序化依赖启动结合PDL与线程块集群实现流特化关键要点结论
12. 动态调度、CUDA图与设备驱动的内核协调机制
基于原子工作队列的动态调度原子计数器原子队列CUDA 图PyTorch、推理引擎与CUDA图CUDA图的内存池使用CUDA流捕获CUDA图动态图更新设备启动的CUDA图启动原子队列与设备启动的CUDA图用于内核持久调度条件图节点动态并行性跨多个GPU和集群节点协调（NVSHMEM）基于NVSHMEM的精细化GPU间内存共享使用NCCL和CUDA图捕获多GPU集体操作N-GPU扩展模式屋檐线引导的调度与协调决策关键要点结论
13. PyTorch的性能分析、调优与扩展
NVTX马克笔与性能分析工具通过PyTorch性能分析识别瓶颈使用PyTorch Profiler基于Nsight Systems与NVTX Timelines的系统性能分析通用矩阵乘法（GEMM）内核屋顶线分析基于Linux perf的CPU与GPU性能分析PyTorch编译器（torch.compile）使用 PyTorch 编译器编译与编写自定义内核的对比编译模式及其在速度、内存和编译时间上的权衡区域编译编译器性能问题的分析与调试PyTorch优化注意力机制PyTorch架构优化（torchao）、量化、稀疏性与剪枝基于CUDA流的并发处理通信与计算的重叠基于事件的流同步在MoE模型中使用CUDA流利用 CUDA 图减少内核启动开销捕获CUDA图并预分配内存图重放CUDA图的最佳实践CUDA图树（PyTorch编译器内部）PyTorch内存分析与调优调整CUDA内存分配器激活检查点以节省内存将参数卸载至CPU和NVMeSuperOffload：优化CPU-GPU超级芯片卸载FSDP自动检查点与卸载FSDP与张量并行及流水线并行的融合可插拔内存分配器与跨GPU数据传输启用点对点DMA与UCXPyTorch对称内存优化数据输入管道基于PyTorch分布式实现扩展基于 torch.compile 的 DDPFSDP与torch.compile基于 torch.compile 的张量与流水线并行TorchTitan、AsyncTP、AutoParallel与SimpleFSDP基于HTA的多GPU性能分析持续集成与性能基准测试PyTorch HUD性能仪表盘性能基准测试与MLPerf日志记录关键要点结论
14. PyTorch编译器、OpenAI Triton与XLA后端
PyTorch编译器深度解析TorchDynamo实现字节码捕获与图结构提取AOT Autograd Fusion 用于正向与反向传递PrimTorch中间表示（Prims）简化运算符集TorchInductor后端代码生成TorchInductor 自动调优动态形状与可变序列长度禁用 PyTorch 编译器并恢复为即时模式性能优化建议与生成代码调试数值正确性与精度的调试解析与最小化图中断图断点与TorchDynamo的explain()方法最小化图重新编译使用 allow_in_graph 标记安全函数与代码块处理图中断的技巧调试编译器阶段、图中断与性能使用OpenAI Triton编写自定义内核Triton 编程模型在 Triton 中访问共享内存使用PyTorch注册自定义内核调整内核启动参数Triton内核自动调优高级Triton内核实现Triton中的Warp特化Triton中的分块与持久化GEMM内核Triton 中的软件流水线与双缓冲技术使用Triton Proton Profiler进行性能分析PyTorch XLA 后端关键要点结论
15. 多节点推理、并行化、解码与路由优化
解耦预填充与解码架构预填充-解码干扰独立扩展预填充节点与工作节点对延迟（TTFT）和吞吐量（TPOT）的影响KV缓存数据传输与NIXL使用Kubernetes部署解耦预填充与解码大规模MoE模型服务的并行策略张量并行性流水线并行性专家并行性数据并行性上下文（序列）并行性混合并行性推测性解码与并行令牌生成技术双模型、基于草稿的投机性解码与EAGLE单模型自投机解码利用美杜莎多头实现的多令牌解码交错处理多请求的解码步骤解码技术组合与复杂度评估受限解码性能影响面向MoE推理的动态路由策略专家通信优化负载均衡、容量因子与专家复制自适应专家路由与实时监控关键要点结论
16. 大规模推理的性能分析、调试与优化
推理性能分析、调试与优化监控系统指标与计数器使用Nsight Systems和Nsight Compute进行性能分析推理故障排除方案全栈推理优化正确性问题调试动态分批处理、调度与路由动态批处理连续批处理连续调度无停滞调度（分块预填充）延迟感知调度与动态路由系统级优化通信与计算重叠最大化GPU利用率与吞吐量与延迟的权衡功耗与热量约束错误处理内存KV缓存卸载与内存池分配实时推理的量化方法精度降低：从FP16到FP8和FP4仅权重量化（GPTQ、AWQ）激活函数量化训练后量化工作流结合权重与激活量化将量化-去量化步骤融合至执行图应用层优化prompt压缩prompt清理前缀缓存模型级联与分层模型部署流式响应防抖动与请求合并令牌输出限制与超时关键要点结论
17. 扩展分布式预填充与解码以支持推理
为何采用预填充-解码解耦？解耦优势解耦预填充与解码集群池解耦路由与调度策略解耦预填充与解码的可扩展性关键要点结论
18. 高级预填充-解码与键值缓存调优
优化解码内核FlashMLA（DeepSeek）ThunderMLA（斯坦福大学）FlexDecoding（PyTorch）调优KV缓存利用率与管理解耦式键值缓存池KV缓存复用与前缀共享优化键值缓存内存布局GPU 与 CPU-GPU 超级芯片改进预填充与解码间快速键值缓存传输KV缓存容量零拷贝GPU间传输连接器与数据路径设计预填充与解码的异构硬件与并行策略计算优化型与内存优化型硬件GPU-CPU协同混合预填充支持服务水平目标的请求管理与容错机制早期拒绝（接入控制）服务质量容错动态调度与负载均衡自适应资源调度与热点预防关键要点结论
19. 动态自适应推理引擎优化
自适应并行策略（TP与PP与混合模式对比）动态精度切换针对Transformer自注意力与MLP路径的内核自动调优动态共享内存分配与占用感知内核选择投机性KV预取以加速TTFT实时KV缓存压缩与策略切换强化学习代理实现运行时AI系统调优动态内存分配切换（区块分配 vs 缓存分配 vs 流式分配）运行时内核性能优化与热插拔实现方案基于时间序列预测的CUDA图与缓存持续预加载自适应分批处理与分块预填充调度基于拥塞感知与拓扑感知的多GPU调度NVLink/NVSwitch 拓扑结构与带宽限制实时链路遥测与监控自适应进程-GPU映射基于NCCL的集体通信优化基于GPUDirect RDMA的多节点与多机架通信基于MoE的专家重新平衡与重组动态拥塞感知调度基于精细调优调度的NVSwitch传输协调额外的自适应与动态优化技术动态早期退出网络输入感知层跳过机制（DASH）投机性MoE专家路由与通信减量基于LazyLLM的动态令牌修剪面向边缘的MoE内存预算动态量化与激活范围调整关键要点结论
20. 基于AI的性能优化与千万级GPU集群扩展方案
AlphaTensor人工智能发现算法提升GPU性能（谷歌DeepMind）基于DeepSeek-R1（NVIDIA）的GPU内核自动化优化强化学习生成优化GPU内核方法（Predibase）自我进化人工智能代理（AI Futures项目）智能编译器与自动化代码优化AI辅助实时系统优化与集群运维向千万级GPU集群与百万亿参数模型扩展关键要点结论
附录. AI系统性能检查清单（175+项）
性能调优与成本优化思维模式可重复性与文档最佳实践系统架构与硬件规划统一的CPU-GPU“超级芯片”架构多GPU扩展与互连优化操作系统与驱动程序优化GPU资源管理与调度I/O 优化数据处理管道性能分析、调试与监控GPU编程与CUDA调优优化内核调度与执行优化算术优化与缩减/混合精度高级调优策略与算法技巧分布式训练与网络优化高效推理与服务多节点推理与服务功耗与热管理结论
索引
关于作者

Content preview from 人工智能系统性能工程 (Chinese Edition)

第10章. 内核流水线、线程组特化与协作线程块集群

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在前几章中，我们探讨了基础优化技术，包括调整内存访问、最大化并行度、计算与数据传输重叠、提升占用率以及减少线程组停滞。这些方法有助于隐藏延迟并消除瓶颈。然而，现代GPU提供了先进的硬件特性和执行模型，使我们能够将基础优化技术推向更深层次。

本章将介绍若干更高级的CUDA技术，包括：- 专属线程组流水线- 支持网格级与集群级同步的协作组- 循环处理动态工作队列的持久化内核- 基于分布式共享内存（DSMEM或DSM）与张量内存加速器（TMA）多播技术的线程块集群（即协作线程数组集群[CTA]）从高层次来看，线程块集群是一组被保证并行运行的线程块。它们可通过DSMEM相互读写共享内存并执行原子操作。

这些机制使我们能够在无需主机干预的情况下重叠内存访问与计算操作。同时支持跨线程块进行片上数据共享，确保每个流处理器（SM）始终处于满负荷运行状态。

掌握这些现代GPU执行模型后，您将准备好进入下一章：通过探索基于CUDA流的内核间管道，进一步扩展这些优化技术。下一章将在本章讨论的内核优化基础上，构建内核间管道体系。

内核内流水线技术

内核内流水线技术（）指在单次内核执行中实现内存操作与计算任务重叠的一系列技术。（下一章将探讨跨内核流水线技术，该技术可在不同流中运行的多个内核间实现任务重叠。）

其核心思想是将内核划分为并行阶段：当某段数据正在加载或存储时，先前加载的数据已进入处理阶段。这些阶段在不同瓦片或数据块上并行运行，从而提升吞吐量并有效隐藏延迟。

传统上，GPU依赖于波段级多线程来隐藏延迟。当一个波段因内存加载而停滞时，其他波段可继续执行计算。这是执行模型中单指令多线程（SIMT）延迟隐藏的基础。

内核流水线技术在此基础上更进一步，通过在同一波段或内核内重叠内存操作与计算任务实现深度优化。它采用精细化协调机制交错执行内存加载与计算操作——有时甚至在单个波段内同时进行。

基于CUDA管道API的内核流水线技术，无需调用__syncthreads()即可实现异步内存传输与计算的重叠执行。内核流水线主要有两种实现方式：双缓冲与波段专职化。

双缓冲（两阶段）流水线方案中，所有线程均采用统一协作模式。而线程组专职化流水线方案则将线程组划分为内存加载、计算、内存存储等不同角色。具体选择取决于工作负载与性能需求。表10-1总结了这两种<cuda/pipeline>变体。

表 10-1. 基于 CUDA 流水线 API 在现代 GPU 上实现内核流水线化的两种方法
API变体	最佳适用场景	主要用途
双缓冲流水线	基于循环的分块与双缓冲	同一工作组或块内重叠加载与计算
专属工作组流水线（例如三阶段内存加载器、计算单元、内存存储器）	具有多个独立线程组角色的持久内核（本例中为3个）	将波束分配至独立角色/阶段（如内存加载、计算、内存存储）

使用CUDA管道API实现协作式分块与双缓冲

可通过C++管道API实现传统双缓冲分块模式：创建两阶段管道以重叠内存加载与计算操作. 具体而言，可声明两阶段cuda::pipeline_shared_state<cuda::thread_scope_block, 2>对象，通过协作组（稍后详述）将其作用域限定于特定线程块。这本质上是生产者-消费者模式，如图10-1所示。

图10-1. 基于CUDA管道API的两阶段生产者-消费者模式 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572281557

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business