第13章 数据保护

在本书中,我们介绍了数据科学的许多领域,经常涉足一些在传统上并未与数据科学家的核心工作知识相关联的领域。特别是,我们用第2章整个章节来介绍数据采集,解释了如何解决一些问题。这些问题总是存在,但很少被充分认识或被完全解决。在这一章中,我们将介绍另一个经常被忽视的领域——保护数据。更具体地说,如何在数据生命周期的所有阶段保护数据和分析结果。范围从采集一直到展示,全程都要考虑随Spark范式而来的结构和可扩展性需求。

在这一章里,我们将探讨以下主题。

  • 如何使用HDFS ACL实现粗粒度数据访问控制。

  • 用Hadoop生态系统解释细粒度安全指南。

  • 如何确保数据始终是加密的,以使用Java KeyStore为例。

  • 混淆、遮罩和令牌化(obfuscating, masking, and tokenizing)数据的技术。

  • Spark如何实现Kerberos。

  • 数据安全——伦理和技术问题。

数据体系结构的最后一个部分是安全性,本章中我们将发现数据安全自始至终都是非常重要的,并说明了原因。由于多方面因素的影响,近年来数据的容量和类型呈现巨大的增长,其中相当大部分是由于互联网和相关技术的普及,人们越来越需要完全可扩展和安全的解决方案。我们将探索这些与存储、处理、操作数据有关的保密、隐私和法律关注的解决方案,我们将把这些与之前章节介绍过的工具和技术联系起来。

我们将继续解释有关在保护大规模数据上所涉及的技术问题,并介绍使用各种访问、分类和混淆策略来解决这些问题的想法和技术。和前面的章节一样,我们用Hadoop生态系统的例子来证明想法,同时也会说明公共云基础设施策略。

我们在之前的章节中探索了许多不同的主题,通常集中于一个特定问题的细节,介绍可以用来解决问题的方法。在所有这些用例中,隐含的思路是:正在使用的数据以及收集到的洞察的内容,并不需要以任何方式进行保护;或者操作系统级别提供的保护,例如登录凭证,就已经足够了。 ...

Get 精通Spark数据科学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.