book

可靠的机器学习

Name: 可靠的机器学习
ISBN: 9798341659254

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood

May 2025

Beginner to intermediate

410 pages

4h 14m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
我们为什么写这本书SRE 作为 ML 的透镜预期受众本书的编排方式我们的方法编织吧本书导航关于作者本书使用的约定O'Reilly 在线学习如何联系我们致谢Cathy Chen尼尔-理查德-墨菲克兰蒂-帕里萨D.斯库利托德-安德伍德
1.导言
ML 生命周期数据收集与分析ML 训练管道构建和验证应用程序质量和绩效评估确定和衡量 SLO启动监测和反馈回路河套地区的经验教训
2.数据管理原则
数据即责任人工智能管道的数据敏感性数据阶段创造摄入加工存储管理层分析和可视化数据可靠性耐用性一致性版本控制性能可用性数据完整性安全隐私权政策与合规结论
3.模型基本介绍
什么是模型？基本模型创建工作流程模型架构 VS 模型定义 VS 训练模型漏洞在哪里？培训数据标签培训方法基础设施和管道平台功能生成升级和修复关于任何模型的一组有用问题ML 系统示例纱线产品点击预测模型特点功能标签模型更新服务模式常见故障结论
4.特征和训练数据
特点特征选择与工程功能的生命周期功能系统标签人工生成的标签注释工作队伍衡量人工标注质量注释平台主动学习和人工智能辅助标记标签员的文档编制和培训元数据元数据系统概述数据集元数据功能元数据标签元数据管道元数据数据隐私与公平隐私权公平性结论
5.评估模型的有效性和质量
评估模型有效性评估模型质量离线评估评估分布几个有用的衡量标准核查与评估的可操作性结论
6.公平、隐私和合乎道德的 ML 系统
公平（又称打击偏见）公平的定义实现公平公平是过程而非终点简要法律说明隐私权保护隐私的方法简要法律说明负责任的人工智能说明有效性社会和文化适宜性负责任的人工智能沿着 ML 管道前进用例集思广益数据收集和清理模型创建和培训模型验证和质量评估模型部署市场产品结论
7.培训系统
要求基本培训系统的实施特点特色商店模型管理系统编排质量评估监测一般可靠性原则大多数故障不会是多语言故障将对模型进行再培训模型将有多个版本（同时！）。好模型会变成坏模型数据将不可用模型应可改进将添加和更改功能模型训练可能太快资源利用至关重要利用率 != 效率停电包括恢复常见的培训可靠性问题数据敏感性YarnIt 的数据问题示例重现性YarnIt 的可重复性问题示例计算资源容量YarnIt 的产能问题示例结构可靠性组织面临的挑战道德与公平考虑因素结论
8.服务
示范服务的关键问题我们的模型将承受什么负荷？我们模型的预测延迟需求是什么？模型需要住在哪里？我们的模型需要哪些硬件？如何存储、加载、版本控制和更新服务模型？我们的服务功能管道会是什么样的？模型服务架构离线服务（批量推理）在线服务（在线推理）模型即服务边缘服务选择架构模型应用程序接口设计测试为准确性服务还是为复原力服务？缩放自动缩放缓存灾难恢复道德与公平考虑因素结论

9.模型的监测和可观测性
什么是生产监控？它看起来像什么？ML 给监控带来的问题在生产中持续观察 ML 的原因ML 生产监控的问题发展与服务的困难需要转变观念ML 模型监控的最佳实践通用预服务模型建议培训和再培训模型验证（推出前）服务其他注意事项关于监测战略的高级建议结论
10.连续多项式
剖析持续性 ML 系统培训实例培训标签过滤不良数据功能库和数据管理更新模型将更新的模型推向服务关于持续性 ML 系统的观察外部世界事件可能影响我们的系统模型可以影响自己的训练数据时间效应可产生于多个时间尺度应急响应必须实时进行新产品的推出需要分阶段的提升和稳定的基线必须管理模型而不是运送模型持续组织反思非连续 ML 系统结论
11.事件应对
事件管理基础知识事件的生命事件响应角色以 ML 为中心的故障剖析术语提醒：模型故事时间故事 1：寻而不得故事 2：突然变得没用的伙伴故事 3：建议您寻找新供应商ML 事件管理原则指导原则模型开发人员或数据科学家软件工程师ML SRE 或生产工程师产品经理或业务主管专题生产工程师和 ML 工程与建模道德待命工程师宣言结论
12.产品与 ML 如何互动
不同类型的产品Agile ML？ML 产品开发阶段发现与定义制定业务目标MVP 构建与验证模型和产品开发部署支持和维护建造与购买机型数据处理基础设施端到端平台决定的评分方法做出决定由 ML 支持的 YarnIt 商店功能示例按销售总额展示流行纱线基于浏览历史的推荐交叉销售和追加销售基于内容的过滤协同过滤结论
13.将 ML 融入组织
章节假设基于领导者的观点细节问题ML 需要了解业务你所做的最重要的假设ML 的价值重大组织风险ML 不是魔术心理（思维方式）模式惯性在不同文化中正确揭示风险孤立的团队无法解决所有问题实施模式牢记目标绿地与棕地ML 角色与职责如何聘用 ML 人员组织设计与激励机制战略结构流程奖励人关于排序的说明结论
14.实用的 ML Org 实施实例
情景 1：新的集中式多语言团队背景和组织介绍过程奖励人默认执行方案 2：分散式 ML 基础设施和专业知识背景和组织介绍过程奖励人默认执行方案 3：集中式基础设施/分散式建模混合方案背景和组织介绍过程奖励人默认执行结论
15.案例研究：MLOps 的实践
1.在 ML 管道中适应隐私和数据保留政策背景介绍问题与解决方案收获2.影响交通的连续 ML 模型背景介绍问题与解决方案收获3.钢材检查背景介绍问题与解决方案收获4.NLP MLOps：剖析和分阶段负载测试背景介绍问题与解决方案收获5.广告点击预测：数据库与现实背景介绍问题与解决方案收获6.测试和测量 ML 工作流程中的依赖关系背景介绍问题与解决方案收获
索引
关于作者

Content preview from 可靠的机器学习

第 7 章培训系统培训系统

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

ML 训练是我们将输入数据转化为模型的过程。我们获取一组输入数据（几乎总是以高效方式预处理和存储），并通过一组 ML 算法对其进行处理。输出结果是该数据的表示形式，称为模型，我们可以将其集成到其他应用中。有关模型的更多详情，请参见第 3 章。

训练算法描述了软件读取数据并更新模型以尝试表示该数据的具体步骤。另一方面，，训练系统描述了围绕该算法的整套软件。ML 训练系统最简单的实现方式是在单台计算机上运行一个进程，该进程读取数据，对数据进行一些清理并保持一定的一致性，对数据应用 ML 算法，并根据从数据中学到的知识在模型中创建数据表示，并赋予新的值。到目前为止，在单台计算机上进行训练是建立模型的最简单方法，大型云提供商也会租用功能强大的单机配置。但需要注意的是，生产中许多有趣的 ML 应用都需要处理大量数据，因此受益的计算机可能远远不止一台。分布式处理带来了规模，但也带来了复杂性。

在某种程度上，由于我们对 ML 训练系统的概念过于宽泛，ML 训练系统在不同组织和模型构建者之间的共通性可能比端到端 ML 系统的任何其他部分都要少。在第 8 章中，您将看到即使在不同的用例中，服务系统的许多基本要求也大致相同：它们获取模型的表示，将其加载到 RAM 中，并回答应用程序发送的有关该模型内容的查询。在服务系统中，有时服务的对象是非常小的模型（例如在手机上）。有时则是为巨大的模型提供服务，这些模型甚至无法全部放在一台计算机上。但问题的结构是相似的。

相比之下，训练系统甚至不一定与我们的 ML 生命周期处于同一阶段（见图 1-1）。有些训练系统最接近输入数据，几乎完全脱离服务系统来执行其功能。其他训练系统则嵌入到服务平台中，与服务功能紧密集成。当我们观察训练系统维护和表示模型状态的方式时，还会发现其他差异。由于合法的、结构良好的 ML 训练系统之间存在着巨大的差异，因此，要涵盖企业训练模型的所有方式是不合理的。

本章将介绍一个理想化的分布式简单 ML 训练系统。我们将描述一个系统，它位于 ML 循环的一个独立部分，紧邻数据，并为模型质量评估系统和服务系统提供工件。虽然您在现实世界中遇到的大多数 ML 训练系统都与此架构有很大不同，但将其分离出来可以让我们专注于训练本身的特殊性。我们将描述功能性和可维护性培训系统所需的要素，还将描述如何评估附加理想特性的成本和收益。

要求

培训系统需要以下要素，尽管它们可能以不同的顺序出现或相互组合：

训练数据

这包括人工标签和注释（如果有的话）。在我们使用这些数据时，应该对其进行预处理和标准化。它通常会以一种优化的格式存储，以便在训练过程中高效访问。请注意，"训练期间的高效访问 "可能意味着不同的事情，这取决于我们的模型。数据还应该存储在一个受访问保护和执行策略的环境中。

模型配置系统

许多培训系统都有一种方式，将单个模型的配置与整个培训系统的配置分开。¹这些系统应将模型配置与创建模型的团队和模型所使用数据的元数据一起存储在一个版本化系统中。这在以后会非常有用。

模型培训框架

大多数模型创建者不会手工编写模型训练框架。大多数 ML 工程师和建模人员最终可能会专门使用训练系统框架，并根据需要对其进行定制。这些框架通常具备以下功能：

编排: 系统的不同部分需要在不同时间运行，并需要相互通报。我们称之为协调。有些系统还包括以下两个要素，但这些功能可以单独组合，因此在此将它们分开。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659254

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

可靠的机器学习

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood

第 7 章培训系统培训系统

要求

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.