Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
16
2
虽然
MapReduce
在批量处理大规模工作负载时非常高效,但是它是
I/O
密集型的,并且由
HDFS
MapReduce
的面向批处理性质,它在支持交互式分析、图形处理、机器学习
和其他内存密集型算法时面临明显的限制。虽然已经为这些特定的场景开发了其他分布式
处理引擎,但是
Hadoop 1
专注于
MapReduce
的本质决定了它不可能改变同一集群的用途,
转而去支持这些分布式工作负载。
Hadoop 2
通过引入
YARN
突破了这些限制。
YARN
将工作负载管理与资源管理分离,以
便多个应用程序可以共享一个集中的公共资源管理服务。通过在
YARN
中提供通用的作业
和资源管理能力,
Hadoop
不再是一个仅仅专注于
MapReduce
的框架,而成为了一个完整、
多应用程序的大数据操作系统。
2.3
 使用分布式文件系统
请记住,
HDFS
实际上是一个分布式远程文件系统。它与
POSIX
文件系统的相似性很容易
误导我们,特别是文件系统查找的所有请求都发送到
NameNode
NameNode
能够快速响
应查找类型的请求。一旦你开始访问文件,速度会很快慢下来,因为组成请求文件的各个
块都必须通过网络传输到客户端。还要记住,因为块在
HDFS
上有多个副本,所以
HDFS
中的可用磁盘空间实际上比硬件提供的可用磁盘空间少。
以下示例提供的命令和环境变量可能与你使用的
Hadoop
版本或系统不同。
在大多数情况下,这些差异应该很容易理解。本书假设你使用和附录
A
描述
的伪分布式节点一样的设置。
在大多数情况下,与
HDFS
的交互是通过命令行接口进行的 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648