第7章. 面向生产就绪型AI与智能体系统的MLOps
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在前六章中,您已构建了全面的基础:为生成式人工智能应用准备数据(第2章)、构建多模态智能体(第3章)、协调智能体团队(第4章)、建立评估框架(第5章)以及优化模型与基础设施(第6章)。 这些能力构成了我们所称的智能体运维(AgentOps)的关键支柱——即通过系统化实践将工作原型转化为生产就绪系统的核心框架。
图7-1将这些支柱映射到九个关键维度。本章在生产实践基础上扩展了这些支柱,同时引入了可持续运营的三大核心支柱:可观测性、安全与防护、成本与容量。
图7-1. 智能体运维的九大支柱
对于生成式人工智能模型而言,"模型在测试环境运行良好"与"模型在生产环境运行良好"之间的差距远大于传统机器学习模型()。相同prompt可能产生不同输出,语言持续演变,智能体在会话间保持状态,且无法通过单一指标衡量质量。隐藏的运维开销可能导致成本激增。
这些挑战随时间推移不断累积。部署初期表现优异的模型会随语言模式变化逐渐退化。若缺乏版本管理,团队无法追溯运行版本及训练数据;若缺少全面监控,性能衰退将隐匿至用户投诉才被察觉;若无自动化回滚机制,恢复过程将沦为易出错的手动操作。
生成式AI系统的独特特性要求采用适应其生成性、状态性和演进特性的 化MLOps实践。AI模型固有的不可预测性——其非确定性行为和潜在涌现特性——使得必须从一开始就将安全与治理考量融入运维工作流。
任何机器学习系统的核心都由三个相互关联的组件构成:模型、数据和代码。 传统MLOps通过既定管道管理这三者——数据准备、模型训练和CI/CD部署。但转向基于代理的系统将彻底改变这一格局,如图7-2所示。你不再管理本地数据,而是管理分布式知识库和上下文存储库;不再仅进行模型训练,而是协调prompt工程与代理配置;不再进行简单部署,而是统筹多个代理、工具和内存系统。
图7-2. 在现代AI系统中 ,DevOps提供基础的CI/CD实践,MLOps补充模型训练与数据管道,基础模型运维(FMOps)执行模型微调与训练,而AgentOps则提供prompt编排与多智能体协同
从临时性到系统化:团队现状
当前多数团队仍处于我们称之为"FMOps"的模式——手动筛选示例数据、每次模型更新都重写生产代码、应对未支持的依赖项。如图7-3所示,工作流呈现碎片化:探索性分析在笔记本中进行,数据准备依赖人工操作,模型训练缺乏可复现性,每次部署都需要大量重新配置。
向基于代理的系统转型又增添了新复杂性。团队需手动从prompt库采样、手动配置工具和内存系统,每次变更都需重写代理编排逻辑。代理响应评估仅偶尔进行,生产问题往往引发被动救火而非系统性改进。
图7-3. 碎片化的FMOps工作流 ,展示从探索到部署各阶段的断裂状态
MLOps的演进之路
从传统MLOps到现代智能体系统的 运维,标志着我们对生产环境中AI应用认知的根本性转变。理解这一演进历程有助于阐明传统方法为何力有未逮。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access