Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
术语表
203
作业
在分布式计算中,作业是指完整的计算,由多个并行运行的独立任务组成。
作业链
MapReduce
应用程序中使用的一种技术,通过将前一个作业的输出用作下一个作业的
输入,将一个或多个
MapReduce
作业链接在一起,从而构建更复杂的算法。
作业客户端
客户端是作业的发起者,是最关心结果的一方。客户端可以在作业运行期间保持连接,
也可以先让作业在集群上独立运行,过后再返回以查找结果。
作业配置
用于定义范围的作业参数,例如应该使用的
mapper
reducer
executor
的数量。
Jupyter notebook
以前的
iPython notebook
notebook
是结合了可执行代码和富文本的文档,旨在以一
种演示文稿的格式展示分析及其结果。因此,它们被广泛用于分析,从而显示可重现
的结果。
Kerberos
用于验证服务请求的安全方法,可用于
HDFS
YARN API
以及集群保护。
/
一种联结的数据项,其中键是与数据值相关联的唯一标识符。键
/
值对将关系(由键定
义)分发到多个处理器,然后聚合(
reduce
)其结果。
键空间
系统中用于计算的键
/
值对中键的域。键空间定义了数据如何分区到
reducer
,以及键值
对如何分组和比较。
lambda
架构
一种系统设计,能应对不断采集到的、需要使用分布式计算框架(如
MapReduce
Spark Streaming
)及时处理的大量数据。
lambda
架构使用消息队列前沿来缓冲传入到
处理速度可能较慢的应用程序中的数据。这些应用程序执行初步计算并将结果存储在 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648