16.1 简介
1.7节介绍了大数据的概念,本章将讨论用于大数据处理的硬件和软件基础设施,并在多个台式机和基于云的大数据平台上开发完整的应用程序。
数据库
数据库是用于存储和操作大量数据的关键性大数据基础设施,对于维护大数据的安全性和保密性也非常重要,特别是在美国HIPAA(Health Insurance Portability and Accountability Act)和欧盟GDPR(General Data Protection Regulation)等较为严格的隐私法律背景下。
首先介绍关系数据库,它通过每行有固定数量的列在表中存储结构化数据,并通过结构化查询语言(SQL)来操作关系数据库。
今天生成的大多数数据都是非结构化数据,比如Facebook帖子的内容和Twitter的推文,或JSON和XML文档等半结构化数据。正如第12章所讲的,Twitter将每条推文的内容处理成一个包含大量元数据的半结构化JSON文档。关系数据库不适合大数据应用中的非结构化和半结构化数据。因此,随着大数据的发展,创建新类型的数据库来有效地处理这些数据十分必要。本章将介绍NoSQL数据库的四种主要类型:键-值、文档、列和图数据库。此外,还将介绍NewSQL数据库,它融合了关系数据库和NoSQL数据库的优势。在需要最少安装和设置的云环境中,可通过免费参与和试用开始使用许多NoSQL和NewSQL供应商提供的产品,使得我们在深入研究之前就能获取很多大数据经验。
Apache Hadoop
现今的大部分数据都比较庞大,以至于单个系统无法处理。随着大数据的增长,我们需要用分布式数据存储和并行处理技术来更有效地处理数据。Apache Hadoop等分布式技术能够在计算机集群中提供高并行性的数据处理能力,自动且正确地处理复杂的细节。本章将介绍Hadoop的架构以及它在大数据应用中的使用方法,并指导读者使用Microsoft ...
Get Python程序设计:人工智能案例实践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.