book

Kubernetes 上的生成式人工智能 (Chinese Edition)

Name: Kubernetes 上的生成式人工智能 (Chinese Edition)
ISBN: 0642572344672

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

4h 57m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
撰写本书的缘由Kubernetes生成式人工智能本书结构说明本书适合哪些读者您将学到什么本书采用的规范O'Reilly在线学习联系我们鸣谢
导言
大规模运行生成式人工智能的挑战适用于AI工作负载的Kubernetes理解LLM基础LLMs如何处理文本分词与嵌入推理的两个阶段概述推理生产就绪性模型调优AI驱动的应用程序
I. 推理
1. 模型部署
“在我的机器上运行正常”模型服务器vLLMHugging Face文本生成推理其他模型服务器手动将模型部署到Kubernetes模型服务器控制器KServeRay Serve 和 KubeRay经验教训
2. 模型数据
模型数据存储格式仅权重格式自包含格式ONNXSafetensorsGGUF 与 GGML现状与差距模型注册表Hugging Face 模型中心MLflow模型注册表Kubeflow 模型注册表OCI注册表在Kubernetes中访问模型数据使用持久卷实现共享存储用于存储模型数据的OCI映像ModelcarsOCI 映像卷挂载经验教训
II. 生产就绪性
3. Kubernetes 与 GPU
GPU 发现节点功能发现GPU 功能发现Kubernetes GPU设备插件GPU 工作负载调度基于标签的调度基于资源的调度动态资源分配NVIDIA GPU 操作员基于集群策略的运算符配置子GPU分配多GPU推理数据并行性模型并行单节点与多节点推理对比GPU资源优化经验教训
4. 生产环境运行
模型与运行时调优语言模型评估语言模型压缩模型性能基准测试vLLM运行时参数调优自动缩放优化 vLLM 启动时间支持大型LLM的路路由从 API 网关到 AI 网关网关API推理扩展解耦服务经验教训
5. 模型可观测性
可观测性堆栈与配置日志指标追踪模型服务器指标首次令牌耗时每输出令牌耗时或令牌间延迟吞吐量延迟请求队列指标GPU 使用率监控质量指标负责任的人工智能可解释性公平性模型安全：幻觉与防护机制理解与检测幻觉运行时防护栏经验教训
III. 调优

6. 模型定制
LLM创建入门prompt与上下文工程何时使用模型定制模型调优微调参数高效微调低秩适应在Kubernetes上运行调优任务Kubeflow训练器其他框架经验教训
7. 作业调度优化
Kubernetes调度器优化核心 Kubernetes 调度器资源箱装填策略基于调度器解除的动态调度组调度PyTorch 并行调度与团组调度团组调度方案对比拓扑感知调度拓扑感知调度方案对比配额管理与多租户：GPU即服务配额管理与多租户解决方案对比分布式训练的网络优化GPU通信网络技术对比在Kubernetes中使用次要网络接口连接HPC与Kubernetes：Slurm与Slinky训练存储方案训练作业安全性Ray安全指南PyTorch 安全指南训练作业可观测性分布式训练的指标收集跨分布式工作节点的日志记录追踪分布式训练操作经验教训
IV. 人工智能驱动的应用程序
8. 人工智能驱动的应用程序
架构模式Kubernetes 工作负载类型聊天应用程序后端人工智能服务检索增强生成RAG组件文档摄取用户查询处理基于Kubernetes的RAG智能体工作流智能体框架与运行时OpenAI 的响应 API基于Kubernetes的智能体多智能体系统环境智能体经验教训
9. 生产环境中的智能代理应用运行
模型上下文协议MCP安全代理冒充（令牌传递）服务账户委托通过OAuth2令牌交换实现身份委托基于SPIFFE/SPIRE的双向TLS（零信任）代理间协议A2A互补MCPA2A核心概念概览在Kubernetes上运行A2A代理状态管理状态存储模式键值存储与数据库的选择长期运行代理的检查点机制经验教训
后记
我们涵盖的内容结语
索引
关于作者

Content preview from Kubernetes 上的生成式人工智能 (Chinese Edition)

引言

2022年ChatGPT的发布堪称IT界的分水岭时刻。一夜之间，一切似乎都发生了改变——并非源于全新概念，而是模型参数的指数级增长与训练数据集的爆炸式扩张。模型参数——即训练过程中学习到的权重与偏置 ——常被用作衡量模型复杂度与能力的指标。但架构创新与训练质量对模型实际表现同样至关重要。参数规模与数据量的双重扩张，将人工智能推向了前所未有的新领域。

在物理学领域，相变描述的是微小渐变突然引发剧烈行为转变的时刻——如同水凝结成冰。LLMs的崛起遵循着相同模式。自2017年Transformer架构问世以来，人工智能持续稳步演进，但模型规模、计算能力与训练数据量的飞跃式增长使其跨越了临界点。这些模型开始展现类人文本生成与处理能力，颠覆整个行业格局，重塑我们对人工智能潜力的认知。图I-1所示图表揭示了这些参数的增长轨迹，以及过去几年推动人工智能进化的数据源扩张。

除了数据之外，计算能力的进步——特别是通过CUDA等框架将GPU广泛应用于通用计算领域，实现了人工智能工作负载的大规模并行处理——也是促成这一变革的关键因素。海量数据（基本上整个互联网都可用于训练）与更快的计算能力相结合，形成了完美风暴，推动生成式人工智能模型取得快速进步。

Diagram showing exponential growth in AI model parameters and capabilities, leading to a phase transition around 2022, while data availability plateaus.

随着这些进步而来的是新的挑战，尤其体现在管理处理如此大规模工作负载所需的基础设施方面。例如OpenAI在《Kubernetes扩展至7500节点》报告中详述，Kubernetes已成为协调GPT-3等模型海量计算需求的关键工具。其集群自动扩展、动态基础设施调整及成本管控能力，成为高效部署大型模型的核心要素。

尽管多数用户无需处理OpenAI级别的集群规模，但其建立的核心原则适用于任何Kubernetes环境——无论是在小型集群上运行LLMs，还是实现"互联网规模"部署。

作为Red Hat OpenShift AI的Kubernetes专家，我们（作者）惯于支持传统工作负载——Web应用、API服务和数据库——但运行LLMs？这完全是另一回事。初次接触这些计算怪兽时，我们既兴奋又无所适从。这些模型如同"半透明"的黑匣子：我们知道它们体量庞大，需要GPU和持久卷空间，还需健康检查，但除此之外，其内部运作机制完全不透明。

我们至今仍清晰记得首次尝试的情景。那简直是一场灾难。模型初始化耗时漫长，启用GPU支持如同坠入兔子洞般复杂，CrashLoopBackOff错误频发，响应速度慢得令人尴尬。显然我们必须重新思考Kubernetes处理这类工作负载的方式。

经过反复调试，我们终于让系统运转起来。通过精细调整资源请求、优化持久卷配置，并引入智能调度策略来最大化GPU效率，模型终于开始正常运行。这段陡峭的学习曲线，凸显了Kubernetes传统优势与新兴AI工作负载需求之间的鸿沟。

虽然并非所有人都会遭遇完全相同的挑战，但我们的经验教训适用于任何Kubernetes环境。随着Kubernetes社区持续弥合剩余差距，致力于将AI工作负载（尤其是LLMs）打造为头等公民，我们诚邀您加入这场变革之旅。本书将深入探讨在Kubernetes上运行LLMs的前沿实践，并指导您克服随之而来的运维挑战。

在引言部分，我们将首先剖析大规模运行AI工作负载的挑战，继而探讨Kubernetes的应对方案。随后提供可选的LLM基础知识导论，涵盖令牌处理与推理阶段等概念，这些知识对诊断性能问题大有裨益。若您倾向于将LLMs视为纯粹的黑盒系统，初读时可跳过此章节。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Kubernetes 认证管理员 (CKA) 学习指南 (Chinese Edition), 2nd Edition

Publisher Resources

ISBN: 0642572344672

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Kubernetes 上的生成式人工智能 (Chinese Edition)

by Roland Huß, Daniele Zonca

引言

图I-1. 参数指数级增长与数据扩张引发相变，模型能力突显，但数据增长已趋于平稳

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.