Skip to Content
Kubernetes 上的生成式人工智能 (Chinese Edition)
book

Kubernetes 上的生成式人工智能 (Chinese Edition)

by Roland Huß, Daniele Zonca
February 2026
Intermediate to advanced
406 pages
4h 57m
Chinese
O'Reilly Media, Inc.
Content preview from Kubernetes 上的生成式人工智能 (Chinese Edition)

第三章 Kubernetes 与 GPU

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

生成式人工智能的核心在于密集的 数学计算,特别是张量乘法等线性代数运算。 这些运算需要强大的计算能力和内存容量来处理包含数十亿至数百亿参数的大型数据集和模型。 幸运的是,图形处理器(GPU)这种专用硬件应运而生,能够优化并加速此类计算任务。

GPU最初设计用于图形渲染和沉浸式游戏体验,但凭借其大规模并行架构,很快在人工智能领域占据重要地位。 这种能力与人工智能和机器学习中大量涉及线性代数的任务需求完美契合。

如今GPU已成为人工智能领域最主流的加速器类型, 其中英伟达以显著优势领跑市场,AMD和英特尔紧随其后。 尽管GPU占据主导地位,其他技术仍各具优势并存在理想应用场景。例如谷歌的张量处理单元(TPU)性能卓越,但通常局限于谷歌生态系统。此外,由Cerebras和Graphcore等公司开发的专用AI专用集成电路(ASIC),以及现场可编程门阵列(FPGA),正作为新兴但仍小众的替代方案崭露头角。

GPU之所以仍是主流选择,主要得益于其成熟的生态系统、广泛的可用性以及经过验证的可扩展性。 在生产环境部署LLMs时,由于这些模型对内存和计算资源的巨大需求,GPU已成为不可或缺的存在。

默认情况下,Kubernetes内置支持CPU和内存等标准计算资源。但要利用GPU等专用硬件,则需额外机制。Kubernetes通过设备插件(可插拔扩展框架)解决此问题。 该接口使Kubernetes能集成外部硬件资源并管理其生命周期,有效扩展了Kubernetes API以涵盖这些专用设备。

但GPU需要特别关注。 它们不仅需要Kubernetes内部的特定发现机制和调度规则,还需专用软件堆栈(如NVIDIA的CUDA库)才能正常运行。

本章将深入探讨Kubernetes实现高效GPU访问与管理的设备集成机制,并重点解析NVIDIA GPU(因其在该领域的统治地位)。

首先剖析Kubernetes如何通过节点特性发现机制与NVIDIA专属GPU特性发现机制识别GPU资源。随后阐述基础的Kubernetes设备插件机制,并概述新兴的动态资源分配(DRA)功能以实现更灵活的GPU调度。

GPU工作负载调度需精心设计以确保资源高效利用。 我们将探讨基于资源的GPU调度与基于标签的调度策略,随后借助NVIDIA GPU Operator深入解析高级GPU管理。这包括时间切片和多实例GPU(MIG)等精密的GPU分区机制,以及数据中心GPU管理器(DCGM)导出器等全面的GPU监控解决方案。

本章还将涵盖多GPU推理场景,重点解决单GPU资源不足的问题。 我们将阐述张量并行与管道并行等多种技术,实现单节点或多节点上多GPU的高效协同。 最后,我们将整合最佳实践与优化策略,助您高效管理GPU资源、防止碎片化,并最大化Kubernetes集群性能。

首先,我们将探讨 Kubernetes 如何识别和标记 GPU 资源,为有效的 GPU 管理奠定基础。

GPU发现

Kubernetes 要有效管理 GPU,首先需可靠识别哪些节点配备 GPU 并确定其性能。精确的硬件检测可确保工作负载匹配具备合适 GPU 资源的节点。

Kubernetes提供通用解决方案 (节点特性发现),用于检测硬件特性并为节点添加对应标签。 虽然节点特性发现提供基础硬件识别能力, NVIDIA还提供了专用工具GPU特性发现。 该工具基于节点特性发现构建,添加了详细的GPU专用标签,支持针对NVIDIA ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

工程领导力:难点 (Chinese Edition)

工程领导力:难点 (Chinese Edition)

Juan Pablo Buriticá, James Turnbull

Publisher Resources

ISBN: 0642572344672