Skip to Content
可靠的机器学习
book

可靠的机器学习

by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood
May 2025
Beginner to intermediate
410 pages
4h 14m
Chinese
O'Reilly Media, Inc.
Content preview from 可靠的机器学习

第 2 章 数据管理原则 数据管理原则

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在本书中,我们很少关注如何构建模型或模型结构的算法细节。去年最激动人心的算法发展,明年就会变成平凡的可执行文件。相反,我们对两件事情非常感兴趣:用于构建模型的数据,以及将数据转化为模型的处理管道。

归根结底,ML 系统是数据处理管道,其目的是从数据中提取可用且可重复的见解。然而,ML 管道与传统的日志处理或分析管道存在一些关键区别。ML 管道有一些非常不同的特定限制,失败的方式也不同。它们的成功很难衡量,许多失败也很难发现。(从根本上说,它们消耗数据,并输出经过处理的数据表示(尽管两者的形式大不相同)。因此,ML 系统完全依赖于其底层数据系统的结构、性能、准确性和可靠性。这是从可靠性角度考虑 ML 系统的最有用方法。

在本章中,我们将首先深入探讨数据本身:

  • 数据来源

  • 如何解读数据

  • 数据质量

  • 更新数据源(我们使用哪些数据源以及如何使用这些数据源)

  • 将数据汇集成适当的形式以供使用

我们将介绍数据的生产要求,并说明与模型一样,生产中的数据也有一个生命周期

  • 摄入

  • 清理和数据一致性

  • 丰富和扩展

  • 存储和复制

  • 用于培训

  • 删除

数据和元数据定义的稳定性以及这些定义的版本控制至关重要,我们将解释如何实现这一点。1我们还将介绍数据访问限制、隐私和可审计性方面的问题,并展示一些确保数据出处(数据从哪里来)和数据来源(从我们得到数据开始,谁一直对数据负责)的方法。在本章结束时,我们希望您对数据处理链的可靠性和可管理性所涉及的主要问题有一个全面但肤浅的了解。

数据即责任

有关 ML 的文章几乎普遍,认为数据是 ML 系统的重要资产。这种观点是正确的:没有数据当然不可能有 ML 系统。如图 2-1 所示,拥有更多(和更高质量)训练数据的简单(甚至是简化)ML 系统往往能够胜过拥有较少或代表性较差数据的更复杂系统。2

各组织继续争先恐后地收集尽可能多的数据,希望找到将数据转化为价值的方法。事实上,许多组织已经将此变成了一种非常成功的商业模式。想想 Netflix,它向客户推荐高品质节目和电影的能力是其早期的差异化优势。据报道,Netflix 在涉足内容制作业务后,还利用这些数据,在详细了解人们想看什么的基础上,为哪些受众制作什么样的节目。

Illustrative trade-offs of data size, model error rates, and risk of problems or issues associated with the data
图 2-1. 数据规模、模型误差率和数据相关问题风险的权衡示例

当然,就像任何东西都可能成为资产一样,在正确(错误)的情况下,它也可能成为负债。就数据而言,最重要的一点是,数据的获取、收集和整理可能会暴露出数据中意想不到的细微差别和复杂性。不考虑这些因素可能会给我们和我们的用户带来潜在的伤害。所有这些方法都必须根据数据类型进行适当调整--例如,医疗记录可能需要不同于工作历史记录的处理方法。当然,整理数据的最佳方法成本很高,所以这里没有免费的午餐。

本小节的目的不是要成为有关数据收集、存储、报告和删除实践的权威著作。这远远超出了本节甚至本书的范围。这里的意图是列举足够多的复杂性,以避免读者简单地认为 "数据越多==越好 "或认为 "这东西很简单"。让我们回顾一下数据的生命周期,看看一些挑战来自哪里。

首先,数据的收集必须符合适用法律,而适用法律可能基于我们的组织所在地、数据来源地和组织政策。我们肯定需要考虑清楚这一点(并与我们可能开展业务的所有司法管辖区的律师进行沟通)。在以下方面有很多限制:什么算作关于人的数据、如何获得存储数据的许可、如何存储和检索已授予的许可、我们是否需要向提供数据的人提供访问数据的权限,以及在什么情况下。这些限制可能来自法律、行业惯例、保险条例、公司治理政策或任何其他来源。在一些司法管辖区,常见的限制措施包括禁止在未经个人明确书面同意的情况下收集 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

构建数据集成解决方案

构建数据集成解决方案

Jay Borthen
Changemakers

Changemakers

Maria Giuduce, Christopher Ireland
AI工程

AI工程

Chip Huyen
Trivergence

Trivergence

Bob Tapscott

Publisher Resources

ISBN: 9798341659254