Skip to Content
人工智能系统性能工程 (Chinese Edition)
book

人工智能系统性能工程 (Chinese Edition)

by Chris Fregly
November 2025
Intermediate to advanced
1060 pages
14h 20m
Chinese
O'Reilly Media, Inc.
Content preview from 人工智能系统性能工程 (Chinese Edition)

第12章. 动态 调度、CUDA图与设备启动的内核协调

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

迄今为止,我们已在单个内核层面释放了计算与内存吞吐量。现在是时候协调这些内核,确保GPU永不闲置。

本章将把调度工作从主机转移至设备本身。我们将探索基于高速L2缓存原子操作的动态工作队列,合并重复内核调用,并利用CUDA图实现固定管道批处理与最小化CPU握手。

随后我们将进一步推进编排机制,通过设备端图启动和动态并行性,使GPU无需回调CPU即可自主决定后续执行任务。

最后我们将深入多GPU环境,通过重叠点对点复制、NCCL集体操作、CUDA感知MPI及NVSHMEM单边存取技术,使GPU集群如同单个巨型共享内存协处理器运行。例如,NVIDIA的DGX GB200 NVL72系统将36个Grace CPU与72个Blackwell GPU连接至单一NVLink域,实现统一寻址,并在域内提供高达30TB的CPU/GPU统一内存。该系统支持在72 GPU域内的NVLink结构中远程访问HBM内存,更大的NVLink网络拓扑可扩展至单机架之外。

在讲解过程中,我们将把每项技术与屋顶线分析关联起来,帮助您选择合适的工具——流、图、原子操作或动态内核——来提高内核的操作强度。这将有助于提高工作负载的整体性能

本章结束时,您将掌握动态、设备端及图论驱动的内核调度技术,确保多GPU集群中每个流处理器单元(SM)持续获得数据供应。

基于原子工作队列的动态调度

线程间任务分配不均( )可能导致部分SM空闲,而其他SM持续繁忙,造成计算资源浪费并降低整体吞吐量。

这种失衡常出现在输入依赖循环或条件性工作负载导致不同线程/块处理量变化时:部分块快速完成使SM闲置,而其他SM仍在执行耗时更长的块。在拥有数百个SM的现代GPU上,若任务分配不均,闲置期将导致大量SM空转,严重损害性能。

当最耗时的任务完成时,GPU部分单元已处于闲置状态。由于大量时钟周期内未运行有效工作单元,这将降低实际占用率。请注意可通过Nsight Systems对GPU时间线进行分析,清晰呈现此类闲置间隙。

您还可通过比较活跃SM周期与总耗时周期来评估资源利用率不足。 Nsight Compute将此数据整合为单一指标,代表至少存在一个活跃波束的时间占比。较低的活跃周期占比表明大量周期处于无活跃波束状态,即GPU频繁处于空闲状态。

除Nsight Systems外,您还可通过Nsight Compute检查实际占用率(相对于硬件最大值的每个SM中活跃波束平均占比)或SM活跃周期百分比(至少有一个波束处于活跃状态的时间占比),以量化资源利用不足的情况。

为关联时间线间隙与具体代码段,请在关键GPU操作前后插入NVTX范围马克笔。

接下来我们将探讨如何在内核内部实现原子队列以动态分配工作负载。这对于在所有SM间平衡任意工作负载、避免线程空闲至关重要。在此之前,我们需要先介绍原子计数器。

原子计数器

原子计数器是原子队列的基础,可实现动态任务分配。

在现代GPU中,全局原子操作由设备端的L2缓存处理并串行化执行。当目标线驻留缓存时,相较于DRAM往返可显著降低延迟。原子计数器在竞争状态下仍会产生延迟并被串行化,但无竞争的atomicAdd 操作通过保持在芯片内执行可实现极快响应。图12-1展示了两个线程递增原子计数器的示例。

图12-1. 在直方图计算场景中,跨多线程实现的超高速 片上原子内存加法操作

然而

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

产品思维工程师 (Chinese Edition)

产品思维工程师 (Chinese Edition)

Drew Hoskins

Publisher Resources

ISBN: 0642572281557