Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
70
5
正是因为这种方法被广泛采用,
Hadoop
才被普遍认为是一个释放大数据集潜力的预处理
器——它通过每个操作将数据集规约(
reduce
)成越来越容易管理的块。一种常见做法是,
使用
MapReduce
Spark
将数据分解到一个可以载入
128GB
内存(高性价比机器的硬件
要求)的计算空间中。这个规则通常被称为“最后一英里”(
last-mile
)计算,因为它将数
据从极大的空间移动到足够近的地方(即最后一英里),从而能够进行准确的分析或特定
于应用程序的计算。
在本章中,我们将在数据流的上下文中探讨将计算空间缩小或分解为更易于管理的计算
空间的并行计算模式。首先,讨论基于键的计算,这是
MapReduce
的需求,对
Spark
至关重要;接着,学习概要(
summarization
)、索引(
indexing
)和过滤(
filtering
)的模
式,这些模式是大多数分解算法的关键部分——在这个上下文中,我们将讨论统计概要、
抽样、搜索和分类(
binning
)的应用;最后,纵览三种回归、分类和聚类风格分析的预
处理技术。
本章将介绍一些
Hadoop
生态系统中使用的方法。这些方法也被其他项目使
用,具体内容将在最后
4
章讨论。本章还将讨论表示为数据流的算法,而第
8
章将接着讨论用于创建数据流的工具,包括高级
API
(如
Pig
Spark Data
Frames
)。本章讨论的许多过滤和概要算法更容易表示为结构化查询,第
7
章将具体讨论如何在
Hadoop
上使用
Hive
执行结构化查询。最后,这些章节
中的组件(包括
Sckit-Learn ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648