book

Kubernetes 上的生成式人工智能 (Chinese Edition)

Name: Kubernetes 上的生成式人工智能 (Chinese Edition)
ISBN: 0642572344672

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

4h 57m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
撰写本书的缘由Kubernetes生成式人工智能本书结构说明本书适合哪些读者您将学到什么本书采用的规范O'Reilly在线学习联系我们鸣谢
导言
大规模运行生成式人工智能的挑战适用于AI工作负载的Kubernetes理解LLM基础LLMs如何处理文本分词与嵌入推理的两个阶段概述推理生产就绪性模型调优AI驱动的应用程序
I. 推理
1. 模型部署
“在我的机器上运行正常”模型服务器vLLMHugging Face文本生成推理其他模型服务器手动将模型部署到Kubernetes模型服务器控制器KServeRay Serve 和 KubeRay经验教训
2. 模型数据
模型数据存储格式仅权重格式自包含格式ONNXSafetensorsGGUF 与 GGML现状与差距模型注册表Hugging Face 模型中心MLflow模型注册表Kubeflow 模型注册表OCI注册表在Kubernetes中访问模型数据使用持久卷实现共享存储用于存储模型数据的OCI映像ModelcarsOCI 映像卷挂载经验教训
II. 生产就绪性
3. Kubernetes 与 GPU
GPU 发现节点功能发现GPU 功能发现Kubernetes GPU设备插件GPU 工作负载调度基于标签的调度基于资源的调度动态资源分配NVIDIA GPU 操作员基于集群策略的运算符配置子GPU分配多GPU推理数据并行性模型并行单节点与多节点推理对比GPU资源优化经验教训
4. 生产环境运行
模型与运行时调优语言模型评估语言模型压缩模型性能基准测试vLLM运行时参数调优自动缩放优化 vLLM 启动时间支持大型LLM的路路由从 API 网关到 AI 网关网关API推理扩展解耦服务经验教训
5. 模型可观测性
可观测性堆栈与配置日志指标追踪模型服务器指标首次令牌耗时每输出令牌耗时或令牌间延迟吞吐量延迟请求队列指标GPU 使用率监控质量指标负责任的人工智能可解释性公平性模型安全：幻觉与防护机制理解与检测幻觉运行时防护栏经验教训
III. 调优

6. 模型定制
LLM创建入门prompt与上下文工程何时使用模型定制模型调优微调参数高效微调低秩适应在Kubernetes上运行调优任务Kubeflow训练器其他框架经验教训
7. 作业调度优化
Kubernetes调度器优化核心 Kubernetes 调度器资源箱装填策略基于调度器解除的动态调度组调度PyTorch 并行调度与团组调度团组调度方案对比拓扑感知调度拓扑感知调度方案对比配额管理与多租户：GPU即服务配额管理与多租户解决方案对比分布式训练的网络优化GPU通信网络技术对比在Kubernetes中使用次要网络接口连接HPC与Kubernetes：Slurm与Slinky训练存储方案训练作业安全性Ray安全指南PyTorch 安全指南训练作业可观测性分布式训练的指标收集跨分布式工作节点的日志记录追踪分布式训练操作经验教训
IV. 人工智能驱动的应用程序
8. 人工智能驱动的应用程序
架构模式Kubernetes 工作负载类型聊天应用程序后端人工智能服务检索增强生成RAG组件文档摄取用户查询处理基于Kubernetes的RAG智能体工作流智能体框架与运行时OpenAI 的响应 API基于Kubernetes的智能体多智能体系统环境智能体经验教训
9. 生产环境中的智能代理应用运行
模型上下文协议MCP安全代理冒充（令牌传递）服务账户委托通过OAuth2令牌交换实现身份委托基于SPIFFE/SPIRE的双向TLS（零信任）代理间协议A2A互补MCPA2A核心概念概览在Kubernetes上运行A2A代理状态管理状态存储模式键值存储与数据库的选择长期运行代理的检查点机制经验教训
后记
我们涵盖的内容结语
索引
关于作者

Content preview from Kubernetes 上的生成式人工智能 (Chinese Edition)

第7章任务调度优化

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

虽然模型训练涵盖了LLMs的整个生命周期（从预训练到对齐再到定制），但上一章重点探讨了模型定制——这是组织使用LLMs时最常见且实用的方法。该章介绍了多种定制技术和框架（如Kubeflow Trainer），用于在Kubernetes上实现分布式定制任务。尤其值得注意的是，平台管理员必须应对一系列超越基础训练任务配置的新型运维挑战。

虽然第3章主要关注推理生产工作负载，但两者在Kubernetes中的GPU管理存在显著重叠。此外，仅就Kubernetes上长期运行的作业管理而言，模型定制工作负载在多个关键方面与传统Kubernetes应用存在显著差异：

它们本质上资源密集型，需要在多个节点上长期使用专用硬件（GPU），有时长达数天甚至数周。
其组件间存在强烈耦合关系，这在Kubernetes工作负载中较为罕见；例如分布式训练任务中所有 pod必须采用gang调度技术同步调度。
它们会产生海量需跨网络共享的数据，使网络性能成为关键瓶颈。
它们在时间和资源方面都意味着相当大的成本，因此可靠且高效的资源利用至关重要。
在多数集群中，GPU 是稀缺且昂贵的资源，需要复杂的配额管理和调度逻辑来防止资源利用不足，同时确保多个团队和项目之间的公平访问。

所有这些因素共同构成了每位Kubernetes平台管理员必须应对的挑战集。

本章将探讨这些生产级挑战，涵盖在Kubernetes上构建稳健模型定制平台所需的核心优化与配置方案。首先介绍Kubernetes调度器优化策略，包括通过装箱算法实现成本高效的GPU利用率，以及通过调度器动态重调度以维持长期优化效果。随后探讨：确保分布式训练任务所有组件协同调度的组调度方案、优化GPU互联布局的拓扑感知调度，以及保障跨团队公平资源分配的配额管理机制。此外，本章涵盖：缓解通信瓶颈的网络优化方案、多用户环境的安全考量、处理海量数据集与模型工件的存储策略，以及实现长期运行训练任务可视化的观测模式。

我们的目标是将前一章所学原理融入生产就绪平台，使其既能支持企业级模型定制工作流，又能满足现代Kubernetes环境的运维标准。

注

本章将统一使用"训练任务"指代所有形式的LLM定制工作负载（包括第6章讨论的微调及其他技术），因其共享相同平台需求：分布式执行的并行调度、梯度同步的高性能网络、GPU资源管理以及稳健的可观测性。

尽管数据科学技术各异，但所有LLMs模型定制方法的基础设施挑战和运维模式始终一致。

本章聚焦LLM定制，因传统预测模型（分类、回归及时间序列预测）通常规模较小，常可在单GPU或CPU上高效训练，无需本章所述的专用基础设施。

Kubernetes调度器优化

Kubernetes调度器提供灵活的可插拔架构，支持精细化配置以优化不同工作负载需求的Pod放置策略。 GPU训练平台可通过二进制打包等策略整合工作负载以降低成本，并结合动态重调度机制，在集群状态变化时持续优化配置。本节涵盖核心调度机制、成本优化的二进制打包策略以及实现持续优化的调度器。

核心Kubernetes调度器

Kubernetes调度器通过机制，对每个Pod独立执行两阶段决策流程。首先在过滤阶段（候选节点筛选）剔除无法满足Pod要求的节点。筛选条件包括：CPU/内存/GPU资源不足，或违反污点、容忍度及亲和性规则（参见"节点亲和性"）。

评分阶段（节点排序）随后启动 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Kubernetes 认证管理员 (CKA) 学习指南 (Chinese Edition), 2nd Edition

Publisher Resources

ISBN: 0642572344672

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business