Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
大数据操作系统
11
2.2
 
Hadoop
架构
Hadoop
由两个主要组件组成:
HDFS
YARN
,它们实现了上一节讨论的分布式存储和计
算的基本概念。
HDFS
(有时缩写为
DFS
)是
Hadoop
的分布式文件系统,负责管理存储在
集群中磁盘上的数据;
YARN
则是集群资源管理器,将计算资源(
worker
节点上的处理能
力和内存)分配给希望执行分布式计算的应用程序。架构栈如图
2-1
所示。值得注意的是,
原先的
MapReduce
应用程序和其他新的分布式计算应用程序,如图形处理引擎
Apache
Giraph
http://giraph.apache.org
)和内存计算平台
Apache Spark
http://spark.apache.org
),
现在基于
YARN
实现。
(批处理)
(内存计算)
(流式计算)
Hadoop分布式文件系统)
(负载和资源管理器)
廉价磁盘和处理器集群
2-1Hadoop HDFS YARN 构成
HDFS
YARN
协同工作,主要通过确保数据对于所需的计算是本地的,最大限度地减
少集群中的网络流量。数据和任务的重复确保了容错性、可恢复性和一致性。此外,集
群被集中管理,提供了可扩展性,还可将底层的集群编程细节抽象化。
HDFS
YARN
共同构建了大数据应用程序的平台——也许不仅仅是一个平台,它们为大数据提供了一
个操作系统。
和任何优秀的操作系统一样,
HDFS
YARN
也很灵活。除
HDFS
之外的其他数据存储系
统可以集成到
Hadoop
框架中,例如
Amazon S3
Cassandra ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648