book

Kubernetes 上的生成式人工智能 (Chinese Edition)

Name: Kubernetes 上的生成式人工智能 (Chinese Edition)
ISBN: 0642572344672

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

4h 57m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
撰写本书的缘由Kubernetes生成式人工智能本书结构说明本书适合哪些读者您将学到什么本书采用的规范O'Reilly在线学习联系我们鸣谢
导言
大规模运行生成式人工智能的挑战适用于AI工作负载的Kubernetes理解LLM基础LLMs如何处理文本分词与嵌入推理的两个阶段概述推理生产就绪性模型调优AI驱动的应用程序
I. 推理
1. 模型部署
“在我的机器上运行正常”模型服务器vLLMHugging Face文本生成推理其他模型服务器手动将模型部署到Kubernetes模型服务器控制器KServeRay Serve 和 KubeRay经验教训
2. 模型数据
模型数据存储格式仅权重格式自包含格式ONNXSafetensorsGGUF 与 GGML现状与差距模型注册表Hugging Face 模型中心MLflow模型注册表Kubeflow 模型注册表OCI注册表在Kubernetes中访问模型数据使用持久卷实现共享存储用于存储模型数据的OCI映像ModelcarsOCI 映像卷挂载经验教训
II. 生产就绪性
3. Kubernetes 与 GPU
GPU 发现节点功能发现GPU 功能发现Kubernetes GPU设备插件GPU 工作负载调度基于标签的调度基于资源的调度动态资源分配NVIDIA GPU 操作员基于集群策略的运算符配置子GPU分配多GPU推理数据并行性模型并行单节点与多节点推理对比GPU资源优化经验教训
4. 生产环境运行
模型与运行时调优语言模型评估语言模型压缩模型性能基准测试vLLM运行时参数调优自动缩放优化 vLLM 启动时间支持大型LLM的路路由从 API 网关到 AI 网关网关API推理扩展解耦服务经验教训
5. 模型可观测性
可观测性堆栈与配置日志指标追踪模型服务器指标首次令牌耗时每输出令牌耗时或令牌间延迟吞吐量延迟请求队列指标GPU 使用率监控质量指标负责任的人工智能可解释性公平性模型安全：幻觉与防护机制理解与检测幻觉运行时防护栏经验教训
III. 调优

6. 模型定制
LLM创建入门prompt与上下文工程何时使用模型定制模型调优微调参数高效微调低秩适应在Kubernetes上运行调优任务Kubeflow训练器其他框架经验教训
7. 作业调度优化
Kubernetes调度器优化核心 Kubernetes 调度器资源箱装填策略基于调度器解除的动态调度组调度PyTorch 并行调度与团组调度团组调度方案对比拓扑感知调度拓扑感知调度方案对比配额管理与多租户：GPU即服务配额管理与多租户解决方案对比分布式训练的网络优化GPU通信网络技术对比在Kubernetes中使用次要网络接口连接HPC与Kubernetes：Slurm与Slinky训练存储方案训练作业安全性Ray安全指南PyTorch 安全指南训练作业可观测性分布式训练的指标收集跨分布式工作节点的日志记录追踪分布式训练操作经验教训
IV. 人工智能驱动的应用程序
8. 人工智能驱动的应用程序
架构模式Kubernetes 工作负载类型聊天应用程序后端人工智能服务检索增强生成RAG组件文档摄取用户查询处理基于Kubernetes的RAG智能体工作流智能体框架与运行时OpenAI 的响应 API基于Kubernetes的智能体多智能体系统环境智能体经验教训
9. 生产环境中的智能代理应用运行
模型上下文协议MCP安全代理冒充（令牌传递）服务账户委托通过OAuth2令牌交换实现身份委托基于SPIFFE/SPIRE的双向TLS（零信任）代理间协议A2A互补MCPA2A核心概念概览在Kubernetes上运行A2A代理状态管理状态存储模式键值存储与数据库的选择长期运行代理的检查点机制经验教训
后记
我们涵盖的内容结语
索引
关于作者

Content preview from Kubernetes 上的生成式人工智能 (Chinese Edition)

后记

生成式人工智能领域正以前所未有的速度发展。随着社区从生产部署中不断学习，模型能力日益增强，框架层出不穷且持续演进，最佳实践也在不断更新。然而在这快速变革之下，存在着一个稳定的基础：Kubernetes 已确立其作为大规模生成式人工智能工作负载运营化首选平台的地位。其协调多样化工作负载类型（从LLM推理服务到传统微服务再到数据管道）的能力，使其成为定义现代生成式人工智能系统的混合应用程序的理想选择。

这种优势在新兴的智能体生态中尤为显著——生成式AI模型不再孤立运行，而是通过与工具、服务及其他模型交互来完成复杂任务。此类架构需要能无缝整合生成式AI组件与业务逻辑、数据库及外部API的平台。 Kubernetes在集成领域表现卓越，如同连接组织般将AI驱动应用的所有组件凝聚为一体。

全书始终秉持务实导向：摒弃按时间顺序展开的传统路径（通常应先确定GPU配置与网络拓扑等基础设施决策），而是从具体执行任务切入，逐步探索高效运行方案。这种方法恰与多数企业采用生成式AI的实践路径相契合：先部署现有模型，再通过实践持续优化运行效率。尽管硬件决策和高级调度章节出现在后半部分，但这些主题代表了生产集群配置的关键基础环节，必须从一开始就精心规划。

本书涵盖内容

本书围绕在Kubernetes上运行生成式AI的运维挑战展开，分为四个实用部分：

推理基础篇阐明了如何在Kubernetes上部署和运行LLMs。你学会了应对多吉字节模型权重、漫长初始化时间以及特殊存储需求等独特挑战——这些正是LLM工作负载区别于传统应用的关键特征。这些章节聚焦于打包、持久化存储，以及让首个生成式AI服务稳定运行。生产就绪篇解决了成功部署后出现的运维问题。
生产就绪篇解决部署成功后出现的运维问题。除CPU内存等标准指标外，你学会追踪LLM特有的指标：令牌吞吐量、prompt延迟和推理成本。 GPU资源管理是核心内容，涵盖稀缺加速器的有效调度、利用率最大化，以及在保障服务可用性的同时考虑模型预热时间的扩展策略。
模型定制与优化章节探讨了如何通过微调和LoRA等高效技术将预训练模型适配特定领域。您学会了管理训练任务的密集资源需求，包括多GPU协同、配额分配和检查点管理。高级任务调度涵盖了在并行运行推理与训练工作负载时优化集群利用率的方法。
AI驱动应用展示了如何围绕LLM服务构建完整系统。您探索了包括检索增强生成（通过领域知识增强模型响应）和智能体应用（模型自主交互工具与服务）在内的架构模式。重点在于将LLM能力集成到微服务架构中，并协调复杂的生成式AI工作流。

每章均采用独立章节设计，可直接跳转至与当前挑战最相关的主题。无论您需要立即优化GPU利用率，还是担任AI应用架构师，都能获得聚焦且可操作的指导，无需按顺序通读全书。

结语

所有美好的事物终有尽时，本书亦然。无论您是平台管理员、MLOps工程师，还是设计AI赋能系统的架构师，我们希望本书能为您在Kubernetes上运行生成式AI工作负载奠定坚实的运维基础。记录这一技术演进的过程既令人振奋又充满挑战。我们常质疑某个主题数周后是否仍具相关性。

在生成式AI生态中，每个清晨都有新项目苏醒。它深知必须比竞争对手更快被采纳，否则就会被更耀眼的框架取代。在生成式AI生态中，每当晨光初现，书籍作者便知晓：必须以超越项目诞生的速度更新内容，否则著作尚未付梓便已过时。无论你是项目开发者还是书籍作者：当朝阳升起时，你最好已开始奔跑。

自诞生起便遭弃用的圣典

我们的解决方案？聚焦超越单一工具的运维原则与模式，同时提供足够具体的示例使这些原则可立即付诸实践。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Kubernetes 认证管理员 (CKA) 学习指南 (Chinese Edition), 2nd Edition

Publisher Resources

ISBN: 0642572344672

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Kubernetes 上的生成式人工智能 (Chinese Edition)

by Roland Huß, Daniele Zonca

后记

本书涵盖内容

结语

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.