前言
机器学习(ML)是刚刚开始的巨大技术创新浪潮的核心。在 2000 年代 "数据驱动 "浪潮的基础上,机器学习开启了一个以模型驱动决策的新时代,通过让机器在交互过程中根据最新信息做出近乎即时、高保真的决策,有望提高组织绩效并改善客户体验。
为了支持对 ML 模型的有效利用,机器学习的实践必须从主要的学术追求迅速发展成为一门成熟的工程学科。曾经只属于研究人员、研究科学家和数据科学家的领域,现在至少同样成为了 ML 工程师、MLOps 工程师、软件工程师、数据工程师等的责任。
在机器学习角色的演变过程中,我们看到的部分现象是,关注点发生了健康的转变,从简单地试图让模型运行,转变为确保它们以满足组织需求的方式运行。这意味着要构建能够让企业高效生产和交付模型的系统,加固这些系统以防失败,使其能够从发生的任何故障中恢复,最重要的是要在学习循环的背景下完成所有这些工作,从而帮助企业从一个项目到下一个项目不断改进。
幸运的是,机器学习社区无需从头开始 Bootstrap 完成所有这些工作所需的知识。MLOps 的实践者们已经受益于传统软件项目 DevOps 实践中积累的大量知识。
MLOps 的第一波浪潮侧重于将技术和流程规范应用于模型的开发和部署,这使得企业有更大的能力将模型从 "实验室 "转移到 "工厂",也使得支持 ML 生命周期这些阶段的工具和平台激增。
但是,MLOps 中的操作呢?在这方面,我们又一次受益于传统软件系统的运营进展。对 DevOps 运营方面的成熟做出重大贡献的是该社区对站点可靠性工程(SRE)的更广泛认识和应用,SRE 是谷歌和许多其他组织开发的一套原则和实践,旨在将工程纪律应用于运营大型关键任务软件系统的挑战。
不过,从软件工程到机器学习的方法论应用并非简单的升降转换。虽然两者都有很多值得学习的地方,但在实践中,两者的关注点、挑战和解决方案可能会有很大不同。这正是本书的作用所在。本书作者没有让每个人或团队自己去确定如何将 SRE 原则应用到机器学习工作流程中,而是通过分享他们在谷歌、苹果、微软和其他组织中的成功经验,旨在为您提供一个良好的开端。
可以说,这些作者都非常胜任他们的工作。多年来,我的工作深受其中几位作者的启发和影响。
2019 年秋天,我组织了第一届 TWIMLcon:AI Platforms 会议,为当时刚刚起步的 MLOps 社区提供了一个分享经验和推动实践的场所,以构建流程、工具和平台,支持端到端机器学习工作流。D. Sculley 的开创性论文《Hidden Technical Debt in Machine Learning Systems》中的 "真实世界机器学习系统 "图。1
在 2021 年的第二次会议上,托德-安德伍德(Todd Underwood)与我们一起发表了题为 "当好模特变坏时 "的演讲:不守规矩的模型造成的损害以及如何防止它"。2他在演讲中分享了对 10 年来跟踪的约 100 起事件的人工分析结果,在这些事件中,糟糕的 ML 模型得以或几乎得以投入生产。
此后,我有幸在TWIML AI 播客中采访了 D.,采访的主题是 "机器学习中的数据债务"。3在这些互动中,D.和 Todd 分享的深厚经验在本书中得到了清晰的体现。
而且,如果你是从 SRE 的角度出发,Niall 就不用介绍了。他的著作《网站可靠性工程》(Site Reliability Engineering)和《网站可靠性工作手册》(The Site Reliability Workbook)在 2016 年及以后帮助 SRE ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access