book

可靠的机器学习

Name: 可靠的机器学习
ISBN: 9798341659254

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood

May 2025

Beginner to intermediate

410 pages

4h 14m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
我们为什么写这本书SRE 作为 ML 的透镜预期受众本书的编排方式我们的方法编织吧本书导航关于作者本书使用的约定O'Reilly 在线学习如何联系我们致谢Cathy Chen尼尔-理查德-墨菲克兰蒂-帕里萨D.斯库利托德-安德伍德
1.导言
ML 生命周期数据收集与分析ML 训练管道构建和验证应用程序质量和绩效评估确定和衡量 SLO启动监测和反馈回路河套地区的经验教训
2.数据管理原则
数据即责任人工智能管道的数据敏感性数据阶段创造摄入加工存储管理层分析和可视化数据可靠性耐用性一致性版本控制性能可用性数据完整性安全隐私权政策与合规结论
3.模型基本介绍
什么是模型？基本模型创建工作流程模型架构 VS 模型定义 VS 训练模型漏洞在哪里？培训数据标签培训方法基础设施和管道平台功能生成升级和修复关于任何模型的一组有用问题ML 系统示例纱线产品点击预测模型特点功能标签模型更新服务模式常见故障结论
4.特征和训练数据
特点特征选择与工程功能的生命周期功能系统标签人工生成的标签注释工作队伍衡量人工标注质量注释平台主动学习和人工智能辅助标记标签员的文档编制和培训元数据元数据系统概述数据集元数据功能元数据标签元数据管道元数据数据隐私与公平隐私权公平性结论
5.评估模型的有效性和质量
评估模型有效性评估模型质量离线评估评估分布几个有用的衡量标准核查与评估的可操作性结论
6.公平、隐私和合乎道德的 ML 系统
公平（又称打击偏见）公平的定义实现公平公平是过程而非终点简要法律说明隐私权保护隐私的方法简要法律说明负责任的人工智能说明有效性社会和文化适宜性负责任的人工智能沿着 ML 管道前进用例集思广益数据收集和清理模型创建和培训模型验证和质量评估模型部署市场产品结论
7.培训系统
要求基本培训系统的实施特点特色商店模型管理系统编排质量评估监测一般可靠性原则大多数故障不会是多语言故障将对模型进行再培训模型将有多个版本（同时！）。好模型会变成坏模型数据将不可用模型应可改进将添加和更改功能模型训练可能太快资源利用至关重要利用率 != 效率停电包括恢复常见的培训可靠性问题数据敏感性YarnIt 的数据问题示例重现性YarnIt 的可重复性问题示例计算资源容量YarnIt 的产能问题示例结构可靠性组织面临的挑战道德与公平考虑因素结论
8.服务
示范服务的关键问题我们的模型将承受什么负荷？我们模型的预测延迟需求是什么？模型需要住在哪里？我们的模型需要哪些硬件？如何存储、加载、版本控制和更新服务模型？我们的服务功能管道会是什么样的？模型服务架构离线服务（批量推理）在线服务（在线推理）模型即服务边缘服务选择架构模型应用程序接口设计测试为准确性服务还是为复原力服务？缩放自动缩放缓存灾难恢复道德与公平考虑因素结论

9.模型的监测和可观测性
什么是生产监控？它看起来像什么？ML 给监控带来的问题在生产中持续观察 ML 的原因ML 生产监控的问题发展与服务的困难需要转变观念ML 模型监控的最佳实践通用预服务模型建议培训和再培训模型验证（推出前）服务其他注意事项关于监测战略的高级建议结论
10.连续多项式
剖析持续性 ML 系统培训实例培训标签过滤不良数据功能库和数据管理更新模型将更新的模型推向服务关于持续性 ML 系统的观察外部世界事件可能影响我们的系统模型可以影响自己的训练数据时间效应可产生于多个时间尺度应急响应必须实时进行新产品的推出需要分阶段的提升和稳定的基线必须管理模型而不是运送模型持续组织反思非连续 ML 系统结论
11.事件应对
事件管理基础知识事件的生命事件响应角色以 ML 为中心的故障剖析术语提醒：模型故事时间故事 1：寻而不得故事 2：突然变得没用的伙伴故事 3：建议您寻找新供应商ML 事件管理原则指导原则模型开发人员或数据科学家软件工程师ML SRE 或生产工程师产品经理或业务主管专题生产工程师和 ML 工程与建模道德待命工程师宣言结论
12.产品与 ML 如何互动
不同类型的产品Agile ML？ML 产品开发阶段发现与定义制定业务目标MVP 构建与验证模型和产品开发部署支持和维护建造与购买机型数据处理基础设施端到端平台决定的评分方法做出决定由 ML 支持的 YarnIt 商店功能示例按销售总额展示流行纱线基于浏览历史的推荐交叉销售和追加销售基于内容的过滤协同过滤结论
13.将 ML 融入组织
章节假设基于领导者的观点细节问题ML 需要了解业务你所做的最重要的假设ML 的价值重大组织风险ML 不是魔术心理（思维方式）模式惯性在不同文化中正确揭示风险孤立的团队无法解决所有问题实施模式牢记目标绿地与棕地ML 角色与职责如何聘用 ML 人员组织设计与激励机制战略结构流程奖励人关于排序的说明结论
14.实用的 ML Org 实施实例
情景 1：新的集中式多语言团队背景和组织介绍过程奖励人默认执行方案 2：分散式 ML 基础设施和专业知识背景和组织介绍过程奖励人默认执行方案 3：集中式基础设施/分散式建模混合方案背景和组织介绍过程奖励人默认执行结论
15.案例研究：MLOps 的实践
1.在 ML 管道中适应隐私和数据保留政策背景介绍问题与解决方案收获2.影响交通的连续 ML 模型背景介绍问题与解决方案收获3.钢材检查背景介绍问题与解决方案收获4.NLP MLOps：剖析和分阶段负载测试背景介绍问题与解决方案收获5.广告点击预测：数据库与现实背景介绍问题与解决方案收获6.测试和测量 ML 工作流程中的依赖关系背景介绍问题与解决方案收获
索引
关于作者

Content preview from 可靠的机器学习

前言

机器学习（ML）是刚刚开始的巨大技术创新浪潮的核心。在 2000 年代 "数据驱动 "浪潮的基础上，机器学习开启了一个以模型驱动决策的新时代，通过让机器在交互过程中根据最新信息做出近乎即时、高保真的决策，有望提高组织绩效并改善客户体验。

为了支持对 ML 模型的有效利用，机器学习的实践必须从主要的学术追求迅速发展成为一门成熟的工程学科。曾经只属于研究人员、研究科学家和数据科学家的领域，现在至少同样成为了 ML 工程师、MLOps 工程师、软件工程师、数据工程师等的责任。

在机器学习角色的演变过程中，我们看到的部分现象是，关注点发生了健康的转变，从简单地试图让模型运行，转变为确保它们以满足组织需求的方式运行。这意味着要构建能够让企业高效生产和交付模型的系统，加固这些系统以防失败，使其能够从发生的任何故障中恢复，最重要的是要在学习循环的背景下完成所有这些工作，从而帮助企业从一个项目到下一个项目不断改进。

幸运的是，机器学习社区无需从头开始 Bootstrap 完成所有这些工作所需的知识。MLOps 的实践者们已经受益于传统软件项目 DevOps 实践中积累的大量知识。

MLOps 的第一波浪潮侧重于将技术和流程规范应用于模型的开发和部署，这使得企业有更大的能力将模型从 "实验室 "转移到 "工厂"，也使得支持 ML 生命周期这些阶段的工具和平台激增。

但是，MLOps 中的操作呢？在这方面，我们又一次受益于传统软件系统的运营进展。对 DevOps 运营方面的成熟做出重大贡献的是该社区对站点可靠性工程（SRE）的更广泛认识和应用，SRE 是谷歌和许多其他组织开发的一套原则和实践，旨在将工程纪律应用于运营大型关键任务软件系统的挑战。

不过，从软件工程到机器学习的方法论应用并非简单的升降转换。虽然两者都有很多值得学习的地方，但在实践中，两者的关注点、挑战和解决方案可能会有很大不同。这正是本书的作用所在。本书作者没有让每个人或团队自己去确定如何将 SRE 原则应用到机器学习工作流程中，而是通过分享他们在谷歌、苹果、微软和其他组织中的成功经验，旨在为您提供一个良好的开端。

可以说，这些作者都非常胜任他们的工作。多年来，我的工作深受其中几位作者的启发和影响。

2019 年秋天，我组织了第一届 TWIMLcon：AI Platforms 会议，为当时刚刚起步的 MLOps 社区提供了一个分享经验和推动实践的场所，以构建流程、工具和平台，支持端到端机器学习工作流。D. Sculley 的开创性论文《Hidden Technical Debt in Machine Learning Systems》中的 "真实世界机器学习系统 "图。¹

在 2021 年的第二次会议上，托德-安德伍德（Todd Underwood）与我们一起发表了题为 "当好模特变坏时 "的演讲：不守规矩的模型造成的损害以及如何防止它"。²他在演讲中分享了对 10 年来跟踪的约 100 起事件的人工分析结果，在这些事件中，糟糕的 ML 模型得以或几乎得以投入生产。

此后，我有幸在TWIML AI 播客中采访了 D.，采访的主题是 "机器学习中的数据债务"。³在这些互动中，D.和 Todd 分享的深厚经验在本书中得到了清晰的体现。

而且，如果你是从 SRE 的角度出发，Niall 就不用介绍了。他的著作《网站可靠性工程》（Site Reliability Engineering）和《网站可靠性工作手册》（The Site Reliability Workbook）在 2016 年及以后帮助 SRE ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659254

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

可靠的机器学习

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood

前言

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.