book

Kubernetes 上的生成式人工智能 (Chinese Edition)

Name: Kubernetes 上的生成式人工智能 (Chinese Edition)
ISBN: 0642572344672

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

4h 57m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
撰写本书的缘由Kubernetes生成式人工智能本书结构说明本书适合哪些读者您将学到什么本书采用的规范O'Reilly在线学习联系我们鸣谢
导言
大规模运行生成式人工智能的挑战适用于AI工作负载的Kubernetes理解LLM基础LLMs如何处理文本分词与嵌入推理的两个阶段概述推理生产就绪性模型调优AI驱动的应用程序
I. 推理
1. 模型部署
“在我的机器上运行正常”模型服务器vLLMHugging Face文本生成推理其他模型服务器手动将模型部署到Kubernetes模型服务器控制器KServeRay Serve 和 KubeRay经验教训
2. 模型数据
模型数据存储格式仅权重格式自包含格式ONNXSafetensorsGGUF 与 GGML现状与差距模型注册表Hugging Face 模型中心MLflow模型注册表Kubeflow 模型注册表OCI注册表在Kubernetes中访问模型数据使用持久卷实现共享存储用于存储模型数据的OCI映像ModelcarsOCI 映像卷挂载经验教训
II. 生产就绪性
3. Kubernetes 与 GPU
GPU 发现节点功能发现GPU 功能发现Kubernetes GPU设备插件GPU 工作负载调度基于标签的调度基于资源的调度动态资源分配NVIDIA GPU 操作员基于集群策略的运算符配置子GPU分配多GPU推理数据并行性模型并行单节点与多节点推理对比GPU资源优化经验教训
4. 生产环境运行
模型与运行时调优语言模型评估语言模型压缩模型性能基准测试vLLM运行时参数调优自动缩放优化 vLLM 启动时间支持大型LLM的路路由从 API 网关到 AI 网关网关API推理扩展解耦服务经验教训
5. 模型可观测性
可观测性堆栈与配置日志指标追踪模型服务器指标首次令牌耗时每输出令牌耗时或令牌间延迟吞吐量延迟请求队列指标GPU 使用率监控质量指标负责任的人工智能可解释性公平性模型安全：幻觉与防护机制理解与检测幻觉运行时防护栏经验教训
III. 调优

6. 模型定制
LLM创建入门prompt与上下文工程何时使用模型定制模型调优微调参数高效微调低秩适应在Kubernetes上运行调优任务Kubeflow训练器其他框架经验教训
7. 作业调度优化
Kubernetes调度器优化核心 Kubernetes 调度器资源箱装填策略基于调度器解除的动态调度组调度PyTorch 并行调度与团组调度团组调度方案对比拓扑感知调度拓扑感知调度方案对比配额管理与多租户：GPU即服务配额管理与多租户解决方案对比分布式训练的网络优化GPU通信网络技术对比在Kubernetes中使用次要网络接口连接HPC与Kubernetes：Slurm与Slinky训练存储方案训练作业安全性Ray安全指南PyTorch 安全指南训练作业可观测性分布式训练的指标收集跨分布式工作节点的日志记录追踪分布式训练操作经验教训
IV. 人工智能驱动的应用程序
8. 人工智能驱动的应用程序
架构模式Kubernetes 工作负载类型聊天应用程序后端人工智能服务检索增强生成RAG组件文档摄取用户查询处理基于Kubernetes的RAG智能体工作流智能体框架与运行时OpenAI 的响应 API基于Kubernetes的智能体多智能体系统环境智能体经验教训
9. 生产环境中的智能代理应用运行
模型上下文协议MCP安全代理冒充（令牌传递）服务账户委托通过OAuth2令牌交换实现身份委托基于SPIFFE/SPIRE的双向TLS（零信任）代理间协议A2A互补MCPA2A核心概念概览在Kubernetes上运行A2A代理状态管理状态存储模式键值存储与数据库的选择长期运行代理的检查点机制经验教训
后记
我们涵盖的内容结语
索引
关于作者

Content preview from Kubernetes 上的生成式人工智能 (Chinese Edition)

第9章生产环境中运行智能体应用程序

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在第8章中，我们探讨了人工智能驱动应用程序的架构模式，并在概念层面介绍了智能体工作流。现在我们将视角从架构转向实际挑战——如何在生产环境中运行这些系统。由于2026年的人工智能领域仍在快速演变，技术细节可能在数月内就过时。与其罗列可能消失的框架，我们更专注于那些跨越工具与标准的持久化运维模式。我们的目标是提供可适配任何框架的指导原则。

本章将探讨在Kubernetes上运行智能体应用的三大核心挑战：

安全: 代理程序常代表用户与外部工具（）及数据源交互。您需要强大的身份管理、认证模式和授权控制机制，在保障用户上下文完整性的同时，允许代理程序自主运作。
智能体协同: 多智能体系统需要标准化通信协议。智能体必须发现彼此的能力，跨服务边界分配任务并追踪进度。
状态管理: 与无状态的REST API不同，智能体需在多次交互中维持对话上下文。生产环境部署需采用持久化存储模式，确保在Pod重启后数据不丢失并支持水平扩展。

本章涵盖两种协议，它们在2024年末已成为代理通信的事实标准。模型上下文协议（MCP）规范了代理与工具间的通信，而代理间协议（A2A）则规范了代理间的协同机制。这些并非官方标准机构制定的理论规范，但OpenAI、谷歌、微软、AWS等行业巨头及开源社区已达成共识。 2025年成立的智能体AI基金会为这些标准化工作提供了中立平台（详见侧边栏）。

代理式人工智能基金会

Agentic AI基金会（AAIF）是Linux基金会于2025年启动的项目，旨在为智能体AI系统制定开放标准。八家白金创始成员包括AWS、Anthropic、Block、彭博社、Cloudflare、谷歌、微软和OpenAI。

该基金会宣称的愿景是提供"一个中立、开放的基础平台，确保这项关键能力以透明、协作的方式发展，并推动领先开源人工智能项目的普及"。

该基金会启动时包含三个初始项目：

模型上下文协议（MCP）: 是一个开放协议，定义了 LLM 应用如何连接外部数据源和工具。代理通过 JSON 模式定义发现可用功能，并使用标准 JSON-RPC 消息格式调用它们。
goose: 开源AI代理，支持安装包、执行shell命令、修改文件及运行测试。不同于提供编辑建议的代码补全工具，goose直接执行操作且兼容任何LLM后端。
AGENTS.md: 文件格式规范用于记录AI编码代理应如何与代码库交互。项目通过AGENTS.md文件描述其目录结构、构建流程、测试规范及首选工作流。

该基金会遵循Linux基金会治理模式，技术决策需经指导委员会审议，不受任何单一企业控制。新项目及成员机构可通过标准Linux基金会贡献流程加入。

AAIF成立时间极短（撰稿时仅数月历史）。但八家科技巨头的参与表明，该组织未来几年将在智能体AI标准制定中发挥重要作用。

首先让我们探讨模型上下文协议，该协议为智能体提供了连接所需工具和数据源的标准化方式，从而完成工作任务。

模型上下文协议

模型上下文协议（MCP）是推出的开放协议，可让AI驱动的智能体以一致、结构化的方式连接外部工具、数据源及服务。该协议由Anthropic于2024年末推出，被称为"AI应用的USB-C接口"，因其解决了早期工具调用方案的集成痛点，迅速成为智能体与工具互操作性的事实标准。在MCP出现之前，框架采用临时API调用、专有插件和无法扩展的M×N集成方案，工具间上下文传递过程脆弱且易出错。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572344672

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Kubernetes 上的生成式人工智能 (Chinese Edition)

by Roland Huß, Daniele Zonca

第9章生产环境中运行智能体应用程序

模型上下文协议

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.