book

谷歌云上的 GenAI (Chinese Edition)

Name: 谷歌云上的 GenAI (Chinese Edition)
ISBN: 0642572320294

by Ayo Adedeji, Lavi Nigam, Sarita Joshi, Stephanie Gervasi

January 2026

Intermediate to advanced

250 pages

3h 59m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书价值所在本书内容涵盖我们的方法论读者对象必备知识本书采用的约定代码示例的使用O'Reilly在线学习联系我们鸣谢
1. 生成式人工智能应用开发面临的挑战
LLMs、生成式人工智能代理及其在商业任务中的潜在应用概述小型语言模型（SLMs）基础模型与多模态领域专用模型与推理模型生成式人工智能代理智能体架构开发、部署与维护中的挑战开发挑战部署挑战维护挑战运用现代平台应对挑战行业应用案例与投资回报率展望未来学习实验室
2. 数据准备与可访问性
数据对生成式人工智能日益凸显的重要性生成式AI应用中数据就绪的真正含义数据就绪的关键维度数据就绪性的互联特性将prompt管理为数据资产人为因素：数据就绪旅程中的角色定位数据科学家：探索者机器学习工程师：搭建通往生产的桥梁数据工程师：构筑基础架构的架构师DevOps与SRE：实现基础架构的可运维性业务领域专家与负责人：洞悉"做什么"背后的"为什么"战略性数据模式：构建可靠生成式AI系统的基石统一数据与人工智能平台从RAG到智能RAG：数据模式的演进整合全局：企业级RAG知识引擎智能体系统的数据准备度安全与治理：保障LLM全生命周期数据安全数据隐私框架全面治理实用数据就绪性评估展望未来学习实验室
3. 使用智能体开发工具包（ADK）构建多模态智能体
七行代码实现零到智能体最简而有效的解决方案简洁背后的运行机制启动首次对话理解系统限制借助工具赋能智能智能体首选工具工具与子智能体——实用决策框架真正可扩展的状态管理构建带状态购物车理解三种作用域状态作用域交互生产环境中的状态持久化超越结构化状态：语义记忆Vertex AI 智能体引擎记忆库：从对话中学习实现方案向多模态扩展赋予智能体视觉能力从静态分析到实时支持构建完整的交互记忆构建生产级工具处理异步操作通过人机协作保障安全性基于回调与插件的生产监控与策略执行展望未来学习实验室
4. 智能代理团队的协同管理
单体智能体的发展瓶颈指令冲突工具选择困难症令牌限制维护噩梦解决方案：代理团队路线图：从本地团队到分布式系统本地化团队基础架构：代理层级体系模式1：流水线（顺序代理）模式2：独立任务组（并行代理）模式三：迭代优化者（循环代理）分布式协作组织层面的“为什么”MCP：工具的语言A2A：授权的语言整合应用：混合型智能体团队生产现实信任困境：A2A中的安全机制扩展问题：智能体能力的演进可见性问题：分布式追踪版本问题：管理智能体演化展望未来边缘与具身智能从架构到卓越学习实验室
5. 评估与优化策略
根据LLM/智能体目标定制评估方案超越基础功能评估的关键维度设定生产卓越的基准实用评估策略以人为本的评估A/B测试与偏好评分红队演练：安全可靠性的压力测试自动化评估：反馈扩展实现快速改进基于参考文本的生成评估指标基于参考的评估局限性领域特定与任务导向型指标代理系统与工具使用指标优化策略优化 prompt提升智能体性能超越prompt与智能体优化展望未来学习实验室
6. 调优与基础设施
调优决策微调决策框架微调策略：从完整训练到高效适应微调的真实成本实施方法基础设施问题浮现你将首先遇到的限制模式1：等待加速器模式2：内存墙模式3：资源耗尽却仍迟缓模式四：更多GPU=更差性能加速器：硬件与瓶颈的匹配决策框架实际决策迁移现实存储选项当存储成为瓶颈时存储模式服务与部署关键配置连接模型与代理代理部署平台代理引擎Cloud RunGKE展望未来学习实验室
7. 面向生产就绪型AI与智能体系统的MLOps实践
从临时性到系统化：团队现状MLOps的演进之路构建可复现的训练管道数据版本控制与血统追溯实验追踪模型注册表与治理自动化重新训练全面监控代理监控技术监控幻觉检测AI系统的持续集成/持续交付Cloud BuildCloud Deploy安全与治理作为基础AI 代理的安全框架模型防护：关键安全组件成本管理真实成本模型成本归因策略智能成本运营支出控制展望未来学习实验室
8. 人工智能与智能体成熟度框架
什么是人工智能与智能体成熟度框架？成熟度维度与阶段划分愿景与领导力（“做什么”与“为什么”维度）人才与文化（"谁"维度）运营与技术实践（"如何实现"维度）人工智能与代理成熟度的三大维度如何协同运作从框架到现实：团队实际构建的内容及方法技术对话领导力、人才与文化对话平台化策略如何加速组织人工智能与能动性成熟度发展Vertex AI平台学习实验室
结论

附录：领导者的延伸阅读
索引
关于作者

Content preview from 谷歌云上的 GenAI (Chinese Edition)

第7章. 面向生产就绪型AI与智能体系统的MLOps

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在前六章中，您已构建了全面的基础：为生成式人工智能应用准备数据（第2章）、构建多模态智能体（第3章）、协调智能体团队（第4章）、建立评估框架（第5章）以及优化模型与基础设施（第6章）。这些能力构成了我们所称的智能体运维（AgentOps）的关键支柱——即通过系统化实践将工作原型转化为生产就绪系统的核心框架。

图7-1将这些支柱映射到九个关键维度。本章在生产实践基础上扩展了这些支柱，同时引入了可持续运营的三大核心支柱：可观测性、安全与防护、成本与容量。

Diagram illustrating the nine pillars of AgentOps, including cost and capacity, model strategy, serving and scale, observability, security and safety, deploy and release, evaluation and quality, and data layer, emphasizing sustainable operations.

对于生成式人工智能模型而言，"模型在测试环境运行良好"与"模型在生产环境运行良好"之间的差距远大于传统机器学习模型（）。相同prompt可能产生不同输出，语言持续演变，智能体在会话间保持状态，且无法通过单一指标衡量质量。隐藏的运维开销可能导致成本激增。

这些挑战随时间推移不断累积。部署初期表现优异的模型会随语言模式变化逐渐退化。若缺乏版本管理，团队无法追溯运行版本及训练数据；若缺少全面监控，性能衰退将隐匿至用户投诉才被察觉；若无自动化回滚机制，恢复过程将沦为易出错的手动操作。

生成式AI系统的独特特性要求采用适应其生成性、状态性和演进特性的化MLOps实践。AI模型固有的不可预测性——其非确定性行为和潜在涌现特性——使得必须从一开始就将安全与治理考量融入运维工作流。

任何机器学习系统的核心都由三个相互关联的组件构成：模型、数据和代码。传统MLOps通过既定管道管理这三者——数据准备、模型训练和CI/CD部署。但转向基于代理的系统将彻底改变这一格局，如图7-2所示。你不再管理本地数据，而是管理分布式知识库和上下文存储库；不再仅进行模型训练，而是协调prompt工程与代理配置；不再进行简单部署，而是统筹多个代理、工具和内存系统。

Diagram illustrating the relationships and dependencies among DevOps, MLOps, FMOps, GenAIOps, and their subcategories, emphasizing the flow from producers to consumers in AI system development.

从临时性到系统化：团队现状

当前多数团队仍处于我们称之为"FMOps"的模式——手动筛选示例数据、每次模型更新都重写生产代码、应对未支持的依赖项。如图7-3所示，工作流呈现碎片化：探索性分析在笔记本中进行，数据准备依赖人工操作，模型训练缺乏可复现性，每次部署都需要大量重新配置。

向基于代理的系统转型又增添了新复杂性。团队需手动从prompt库采样、手动配置工具和内存系统，每次变更都需重写代理编排逻辑。代理响应评估仅偶尔进行，生产问题往往引发被动救火而非系统性改进。

图7-3. 碎片化的FMOps工作流，展示从探索到部署各阶段的断裂状态

MLOps的演进之路

从传统MLOps到现代智能体系统的运维，标志着我们对生产环境中AI应用认知的根本性转变。理解这一演进历程有助于阐明传统方法为何力有未逮。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572320294

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills