book

可靠的机器学习

Name: 可靠的机器学习
ISBN: 9798341659254

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood

May 2025

Beginner to intermediate

410 pages

4h 14m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
我们为什么写这本书SRE 作为 ML 的透镜预期受众本书的编排方式我们的方法编织吧本书导航关于作者本书使用的约定O'Reilly 在线学习如何联系我们致谢Cathy Chen尼尔-理查德-墨菲克兰蒂-帕里萨D.斯库利托德-安德伍德
1.导言
ML 生命周期数据收集与分析ML 训练管道构建和验证应用程序质量和绩效评估确定和衡量 SLO启动监测和反馈回路河套地区的经验教训
2.数据管理原则
数据即责任人工智能管道的数据敏感性数据阶段创造摄入加工存储管理层分析和可视化数据可靠性耐用性一致性版本控制性能可用性数据完整性安全隐私权政策与合规结论
3.模型基本介绍
什么是模型？基本模型创建工作流程模型架构 VS 模型定义 VS 训练模型漏洞在哪里？培训数据标签培训方法基础设施和管道平台功能生成升级和修复关于任何模型的一组有用问题ML 系统示例纱线产品点击预测模型特点功能标签模型更新服务模式常见故障结论
4.特征和训练数据
特点特征选择与工程功能的生命周期功能系统标签人工生成的标签注释工作队伍衡量人工标注质量注释平台主动学习和人工智能辅助标记标签员的文档编制和培训元数据元数据系统概述数据集元数据功能元数据标签元数据管道元数据数据隐私与公平隐私权公平性结论
5.评估模型的有效性和质量
评估模型有效性评估模型质量离线评估评估分布几个有用的衡量标准核查与评估的可操作性结论
6.公平、隐私和合乎道德的 ML 系统
公平（又称打击偏见）公平的定义实现公平公平是过程而非终点简要法律说明隐私权保护隐私的方法简要法律说明负责任的人工智能说明有效性社会和文化适宜性负责任的人工智能沿着 ML 管道前进用例集思广益数据收集和清理模型创建和培训模型验证和质量评估模型部署市场产品结论
7.培训系统
要求基本培训系统的实施特点特色商店模型管理系统编排质量评估监测一般可靠性原则大多数故障不会是多语言故障将对模型进行再培训模型将有多个版本（同时！）。好模型会变成坏模型数据将不可用模型应可改进将添加和更改功能模型训练可能太快资源利用至关重要利用率 != 效率停电包括恢复常见的培训可靠性问题数据敏感性YarnIt 的数据问题示例重现性YarnIt 的可重复性问题示例计算资源容量YarnIt 的产能问题示例结构可靠性组织面临的挑战道德与公平考虑因素结论
8.服务
示范服务的关键问题我们的模型将承受什么负荷？我们模型的预测延迟需求是什么？模型需要住在哪里？我们的模型需要哪些硬件？如何存储、加载、版本控制和更新服务模型？我们的服务功能管道会是什么样的？模型服务架构离线服务（批量推理）在线服务（在线推理）模型即服务边缘服务选择架构模型应用程序接口设计测试为准确性服务还是为复原力服务？缩放自动缩放缓存灾难恢复道德与公平考虑因素结论

9.模型的监测和可观测性
什么是生产监控？它看起来像什么？ML 给监控带来的问题在生产中持续观察 ML 的原因ML 生产监控的问题发展与服务的困难需要转变观念ML 模型监控的最佳实践通用预服务模型建议培训和再培训模型验证（推出前）服务其他注意事项关于监测战略的高级建议结论
10.连续多项式
剖析持续性 ML 系统培训实例培训标签过滤不良数据功能库和数据管理更新模型将更新的模型推向服务关于持续性 ML 系统的观察外部世界事件可能影响我们的系统模型可以影响自己的训练数据时间效应可产生于多个时间尺度应急响应必须实时进行新产品的推出需要分阶段的提升和稳定的基线必须管理模型而不是运送模型持续组织反思非连续 ML 系统结论
11.事件应对
事件管理基础知识事件的生命事件响应角色以 ML 为中心的故障剖析术语提醒：模型故事时间故事 1：寻而不得故事 2：突然变得没用的伙伴故事 3：建议您寻找新供应商ML 事件管理原则指导原则模型开发人员或数据科学家软件工程师ML SRE 或生产工程师产品经理或业务主管专题生产工程师和 ML 工程与建模道德待命工程师宣言结论
12.产品与 ML 如何互动
不同类型的产品Agile ML？ML 产品开发阶段发现与定义制定业务目标MVP 构建与验证模型和产品开发部署支持和维护建造与购买机型数据处理基础设施端到端平台决定的评分方法做出决定由 ML 支持的 YarnIt 商店功能示例按销售总额展示流行纱线基于浏览历史的推荐交叉销售和追加销售基于内容的过滤协同过滤结论
13.将 ML 融入组织
章节假设基于领导者的观点细节问题ML 需要了解业务你所做的最重要的假设ML 的价值重大组织风险ML 不是魔术心理（思维方式）模式惯性在不同文化中正确揭示风险孤立的团队无法解决所有问题实施模式牢记目标绿地与棕地ML 角色与职责如何聘用 ML 人员组织设计与激励机制战略结构流程奖励人关于排序的说明结论
14.实用的 ML Org 实施实例
情景 1：新的集中式多语言团队背景和组织介绍过程奖励人默认执行方案 2：分散式 ML 基础设施和专业知识背景和组织介绍过程奖励人默认执行方案 3：集中式基础设施/分散式建模混合方案背景和组织介绍过程奖励人默认执行结论
15.案例研究：MLOps 的实践
1.在 ML 管道中适应隐私和数据保留政策背景介绍问题与解决方案收获2.影响交通的连续 ML 模型背景介绍问题与解决方案收获3.钢材检查背景介绍问题与解决方案收获4.NLP MLOps：剖析和分阶段负载测试背景介绍问题与解决方案收获5.广告点击预测：数据库与现实背景介绍问题与解决方案收获6.测试和测量 ML 工作流程中的依赖关系背景介绍问题与解决方案收获
索引
关于作者

Content preview from 可靠的机器学习

第 1 章导言导言

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

我们从一个模型或框架开始，将机器学习（ML）添加到网站中，它广泛适用于多个领域，而不仅仅是本示例。这个模型我们称之为ML 循环。

ML 生命周期

ML 应用程序永远不会真正完成。无论是在技术上，还是在组织上，它们也不会在任何一个地方开始或停止。ML 模型开发人员通常希望他们的生活很简单，只需收集一次数据并训练一个模型，但这种情况很少发生。

一个简单的思想实验可以帮助我们理解其中的原因。假设我们有一个 ML 模型，而我们正在研究该模型是否工作得足够好（根据某个阈值）。如果运行得不够好，数据科学家、业务分析师和 ML 工程师通常会合作研究如何理解故障并加以改进。正如您所预料的那样，这涉及到大量的工作：也许要修改现有的训练管道以改变一些特征，添加或删除一些数据，以及重组模型以迭代已经完成的工作。

相反，如果模型运行良好，组织通常会感到兴奋。自然而然的想法是，如果我们通过一次天真的尝试就能取得如此大的进步，那么试想一下，如果我们再加把劲，让模型变得更加复杂，我们能做得更好。这通常涉及--你猜对了--修改现有的训练管道、改变特征、添加或删除数据，甚至可能重组模型。无论如何，我们所做的工作大致相同，我们建立的第一个模型只是我们下一步工作的起点。

让我们更详细地了解一下多语言生命周期或循环（图 1-1）。

ML 系统以数据为起点，因此让我们从图的左侧开始，更详细地了解这一循环。我们将具体查看每个阶段，并以我们的购物网站为背景，解释每个阶段都有哪些组织人员参与，以及他们将开展的关键活动。

数据收集与分析

首先，团队要清点所拥有的数据，并开始评估这些数据。团队成员需要确定他们是否拥有所需的所有数据，然后优先考虑他们可以将数据用于哪些业务或组织用途。然后，他们必须收集和处理数据。

与数据收集和分析相关的工作几乎涉及到公司中的每个人，但具体涉及到他们的程度往往因公司而异。例如，业务分析师可能在财务、会计或产品团队工作，每天使用平台提供的数据。或者，数据和平台工程师可能会为数据的摄取、清理和处理构建可重复使用的工具，尽管他们可能并不参与业务决策。(在规模较小的公司，他们可能都只是软件或产品工程师）。有些地方有正式的数据工程职位。其他公司则有数据科学家、产品分析师和用户体验（UX）研究人员，他们都在使用这一阶段的工作成果。

对于我们的网店运营商 YarnIt 来说，大部分组织都参与了这一步骤。这包括业务和产品团队，他们最了解业务中影响最大的优化领域。例如，他们可以确定每次销售利润的小幅增长对业务是否更重要，还是稍微提高订单频率更有意义。他们可以指出低利润和高利润产品的问题或机会，并讨论将客户细分为利润较高和较低的客户。产品工程师和 ML 工程师也会参与其中，思考如何处理所有这些数据，而现场可靠性工程师（SRE）则会，就整体流水线提出建议和决策，使其更具可监控性、可管理性和可靠性。

管理 ML 数据是一个涉及面很广的话题，因此我们在第 2 章专门讨论了数据管理原则，并在第 4章和第 10 章讨论了训练数据。现在，我们不妨假设，数据收集和处理系统的正确设计和管理是任何优秀 ML 系统的核心。一旦我们将数据放置在合适的位置并以合适的格式保存，我们就可以 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659254

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business