Skip to Main Content
Python程序设计:人工智能案例实践
book

Python程序设计:人工智能案例实践

by 保罗 戴特尔, 哈维 戴特尔
August 2021
Intermediate to advanced content levelIntermediate to advanced
450 pages
13h 28m
Chinese
Pearson
Content preview from Python程序设计:人工智能案例实践

16.1 简介

1.7节介绍了大数据的概念,本章将讨论用于大数据处理的硬件和软件基础设施,并在多个台式机和基于云的大数据平台上开发完整的应用程序。

数据库

数据库是用于存储和操作大量数据的关键性大数据基础设施,对于维护大数据的安全性和保密性也非常重要,特别是在美国HIPAA(Health Insurance Portability and Accountability Act)和欧盟GDPR(General Data Protection Regulation)等较为严格的隐私法律背景下。

首先介绍关系数据库,它通过每行有固定数量的列在表中存储结构化数据,并通过结构化查询语言(SQL)来操作关系数据库。

今天生成的大多数数据都是非结构化数据,比如Facebook帖子的内容和Twitter的推文,或JSON和XML文档等半结构化数据。正如第12章所讲的,Twitter将每条推文的内容处理成一个包含大量元数据的半结构化JSON文档。关系数据库不适合大数据应用中的非结构化和半结构化数据。因此,随着大数据的发展,创建新类型的数据库来有效地处理这些数据十分必要。本章将介绍NoSQL数据库的四种主要类型:键-值、文档、列和图数据库。此外,还将介绍NewSQL数据库,它融合了关系数据库和NoSQL数据库的优势。在需要最少安装和设置的云环境中,可通过免费参与和试用开始使用许多NoSQL和NewSQL供应商提供的产品,使得我们在深入研究之前就能获取很多大数据经验。

Apache Hadoop

现今的大部分数据都比较庞大,以至于单个系统无法处理。随着大数据的增长,我们需要用分布式数据存储和并行处理技术来更有效地处理数据。Apache Hadoop等分布式技术能够在计算机集群中提供高并行性的数据处理能力,自动且正确地处理复杂的细节。本章将介绍Hadoop的架构以及它在大数据应用中的使用方法,并指导读者使用Microsoft ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

数据科学中的实用统计学(第2版)

数据科学中的实用统计学(第2版)

Peter Bruce, Andrew Bruce, Peter Gedeck
Python算法交易实战

Python算法交易实战

Posts & Telecom Press, Sebastien Donadio
Python机器学习案例精解

Python机器学习案例精解

Posts & Telecom Press, Yuxi (Hayden) Liu

Publisher Resources

ISBN: 9787111678458