Skip to Content
构建机器学习管道
book

构建机器学习管道

by Hannes Hapke, Catherine Nelson
May 2025
Intermediate to advanced
366 pages
4h 36m
Chinese
O'Reilly Media, Inc.
Content preview from 构建机器学习管道

第 14 章 机器学习的数据隐私 机器学习的数据隐私

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在本章中,我们将介绍适用于机器学习管道的数据隐私的一些方面。保护隐私的机器学习是一个非常活跃的研究领域,刚刚开始被纳入 TensorFlow 和其他框架。我们将解释在撰写本文时最有前途的技术背后的一些原理,并举例说明如何将这些技术应用到机器学习管道中。

本章将介绍保护隐私的机器学习的三种主要方法:差分隐私、联合学习和加密机器学习。

数据隐私问题

数据隐私与信任有关,也与限制人们希望保密的数据的暴露有关。 保护隐私的机器学习方法有很多种,为了在这些方法中做出选择,你应该尝试回答以下问题:

  • 您想对谁保密?

  • 系统的哪些部分可以保密,哪些部分可以向全世界公开?

  • 哪些受信任方可以查看数据?

这些问题的答案将帮助你决定本章介绍的哪种方法最适合你的使用情况。

我们为什么关注数据隐私?

数据隐私正成为机器学习项目的重要组成部分。 围绕用户隐私有许多法律要求,例如 2018 年 5 月生效的欧盟《通用数据保护条例》(GDPR)和 2020 年 1 月的《加利福尼亚消费者隐私法案》。 将个人数据用于机器学习需要考虑道德因素,而使用由 ML 驱动的产品的用户也开始深切关注他们的数据会发生什么变化。由于机器学习历来对数据如饥似渴,而且机器学习模型所做的许多预测都是基于从用户那里收集的个人数据,因此机器学习处于围绕数据隐私争论的前沿。

在撰写本文时,隐私总是要付出代价的:增加隐私需要付出模型准确性、计算时间或两者的代价。一个极端是,不收集任何数据会使交互完全保密,但对机器学习完全无用。在另一个极端,了解一个人的所有细节可能会危及这个人的隐私,但却能让我们建立非常精确的机器学习模型。我们现在才刚刚开始看到保护隐私的 ML 的发展,在这种情况下,可以在不对模型准确性做如此大的权衡的情况下提高隐私保护。

在某些情况下,保护隐私的机器学习可以帮助你使用因隐私问题而无法用于训练机器学习模型的数据。但是,并不能因为使用了本章中的一种方法,就可以对数据为所欲为。您应该与其他利益相关者讨论您的计划,例如,数据所有者、隐私专家,甚至是公司的法律团队。

增加隐私的最简单方法

通常情况下,利用机器学习构建产品的默认策略是收集所有可能的数据,然后再决定哪些数据对训练机器学习模型有用。 尽管这样做得到了用户的同意,但提高用户隐私的最简单方法是只收集训练特定模型所需的数据。对于结构化数据,可以直接删除姓名、性别或种族等字段。文本或图像数据可以通过处理来删除大量个人信息,例如删除图像中的人脸或文本中的姓名。不过,在某些情况下,这会降低数据的实用性,或者无法训练出准确的模型。如果不收集种族和性别数据,就无法判断模型是否对特定群体有偏见。

收集数据的控制权也可以交给用户:同意收集数据可以比简单的选择 "接受 "或 "拒绝 "更加细致,产品用户可以明确指定收集他们的哪些数据。这就提出了设计上的挑战:提供较少数据的用户是否应该比提供较多数据的用户得到更不准确的预测?我们如何通过机器学习管道跟踪同意情况?如何衡量模型中单个特征对隐私的影响?这些问题都需要机器学习社区进行更多讨论。

哪些数据需要保密?

在机器学习管道中,数据通常是从人身上收集的,但有些数据更需要保护隐私的机器学习。 个人身份信息(PII)是可以直接识别单个人的数据,如姓名、电子邮件地址、街道地址、身份证号码等,这些数据需要保密。PII 可以出现在反馈意见或客户服务数据等自由文本中,而不仅仅是当用户被直接要求提供这些数据时才会出现。在某些情况下,人物图像也可能被视为 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

What Successful Brick-and-Mortar Retailers Get Right

What Successful Brick-and-Mortar Retailers Get Right

Rob Angell
Search Marketing

Search Marketing

Kelly Cutler
What Successful Project Managers Do

What Successful Project Managers Do

W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer

Publisher Resources

ISBN: 9798341659292