Skip to Content
实际数据隐私
book

实际数据隐私

by Katharine Jarmul
May 2025
Beginner to intermediate
346 pages
3h 51m
Chinese
O'Reilly Media, Inc.
Content preview from 实际数据隐私

第 2 章 匿名化 匿名化

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

在本章中,您将深入了解匿名化:什么是匿名化、如何使用匿名化以及在数据科学中使用匿名化需要考虑哪些因素。您可能已经了解匿名化,而本章可能会对您自以为了解的知识提出质疑或矛盾!几十年来,匿名化问题一直困扰着研究人员和科学家,时至今日,它仍在不同的隐私专业人士之间引发争论。在本章中,你将学习到严格、科学的匿名化定义,也就是说,你将学习到差异化隐私。这将帮助你用最先进的技术来解决这个问题,并为你提供工具,让你在进行准确的数据科学研究的同时,还能满足强大的隐私保护。

什么是匿名化?

匿名化是指 "从(计算机数据等事物)中删除可识别的信息,从而无法知道原始来源"。 1在对个人数据进行匿名化处理时,要确保数据无法追溯到特定个人。但具体怎么做呢?

过去有几种方法,其中大部分已被推翻,取而代之的是更新的理解。最初的一些方法(归类于统计信息披露控制)使用了各种不再推荐的方法,如抑制、聚合和转换来匿名化数据。这些方法就像早期的加密密码。它们混淆了原始信息源,但专门的攻击者能够推断或推断出更多信息,甚至有可能泄露原始信息。

与密码学中密码分析的发展类似,几十年来,新的隐私攻击也层出不穷,凸显了这些基本方法的弱点。你可能接触过经过以下技术处理的 "匿名 "数据:

  • 删除特定列或属性(例如,删除姓名、地址、生日等信息)

  • 聚合某些行的属性(例如,"此数据集中有 5 个人居住在此邮政编码下")。

  • 混淆或其他转换方法,以混淆个别特征(即混合多行的行属性,使任何一行都没有原始值,但值的总体分布保持不变)

从安全角度看,所有这些都是有趣的混淆技术,但遗憾的是,它们不能也无法保证隐私。

辛西娅-德沃夫和她的几位同行驳斥了这种数据匿名化的做法,证明任何数据的发布都有可能造成重新识别攻击或信息增益。2这篇开创性论文通过一个例子说明了这一点。假设你知道一个人的身高比某个国家的平均身高高出 2 厘米。然后,一个政府机构公布了该国一大群人的平均身高。现在,你知道了这个人的确切身高。他们甚至不需要出现在数据集中!

这里的基本经验是,你不可能知道攻击者已经知道的关于一个人或一群人的信息(通常称为辅助信息)。辅助信息不仅包括当前可用的数据,还包括将来可能知道的任何数据,因此基本上无法估计。因此,无论发布的信息看起来多么模糊或无害,你都无法保证它能保证某人不被识别或不会泄露他们的某些信息。

你可能会问,如果是这样,那么匿名还有什么意义?如果不能保证攻击者无法获知信息,那为什么还要尝试呢?尽管不能保证攻击者什么也学不到,但可以开始考虑如何量化可以学到的信息量。这就是 Dwork 和其他几位研究人员在证明这些统计信息披露控制方法是个神话后开始开发的方法。3

由于他们能够从数学和逻辑的角度证明,字典中定义的匿名数据发布实际上并不存在,因此当前的问题从 "如何匿名化数据?"转变为 "如何测量数据发布时的隐私损失"?他们的目标是找到研究人员可以测量数据发布时隐私损失的方法,而不是保证永远不会发生。这意味着要从对隐私的二元理解--"开 "或 "关"--转变为隐私的梯度。

这对你来说也是一个重要的心理转变。唯一能保证完全隐私的方法就是删除所有数据,或者从一开始就不收集数据。虽然我是数据最小化的忠实粉丝,但我也是一个务实的数据科学家。解决问题需要数据。将隐私视为一个范围,可以帮助您明确自己的需求。为了回答这个问题,我愿意造成多少隐私损失?我可以提供多少隐私,但仍能得到问题的合理答案? ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

零信任网络

零信任网络

Evan Gilman, Doug Barth
威胁建模

威胁建模

Izar Tarandach, Matthew J. Coles
Prometheus:快速入门,第二版

Prometheus:快速入门,第二版

Julien Pivotto, Brian Brazil

Publisher Resources

ISBN: 9798341658585