Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
20
2
全性不像其平台本身那么成熟——这也是
Hadoop
继续发展需要考虑的主要问题之一。
2.4
 使用分布式计算
到目前为止,你应该已经能通过命令行轻松与集群(甚至是伪分布式集群)交互了。大多
数数据科学家和软件开发人员应该对上一节展示的文件系统命令很熟悉。除了在大型数据
集的管理和集群中的网络通信方面有一些差异之外,
HDFS
可以被很轻松地集成到当前的
操作工作流中。本书接下来的内容将主要关注驻留在
HDFS
上的数据的管理和计算。为了
实现这一点,我们需要对分布式计算及其要求有基本了解。
虽然
YARN
已经使
Hadoop
成为一个通用的分布式计算平台,但
MapReduce
(通常缩写
MR
)是
Hadoop
的第一个计算框架。
YARN
让非
MapReduce
框架(如
Spark
Tez
Storm
,仅举几例)可以与原先的
MapReduce
应用程序一起在
Hadoop
集群上运行。但是,
对于大多数
Hadoop
用户来说,
MapReduce
仍然是许多应用程序和分析的主要框架。此外,
MapReduce
的工作原理有所了解,能帮助我们更深刻地理解分布式分析,还可以讨论其
他平台是如何工作的,因为
MapReduce
的理论基础与其他框架是相同的。
本节将探究
MapReduce
编程范式的基本原理,并讨论为何这些函数式编程结构会成为
分布式系统的理想选择。我们将通过两个简单的分析示例(单词计数和共同好友)演
MapReduce
如何工作,这两个示例通常用于演示分布式环境中的计算。最后,本节
将描述如何在
Hadoop
集群上实现
MapReduce ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648