Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
术语表
术语表
可访问的
在一个计算集群上下文中,如果一个节点可以通过网络到达,那么它就是可访问的;
在其他上下文中,如果一个工具或者库能轻易为特定人群使用和理解,那么它就是可
访问的。
累加器
一个共享变量,只能应用满足结合律的运算,如加法(特定于
Spark
,在
MapReduce
称为计数器)。因为满足结合律的运算是与顺序无关的,所以无论运算顺序如何,累加
器都可以在分布式环境中保持一致。
动作和转换
请参见“转换和动作”。
代理
代表用户例行运行的服务,通常是后台进程,独立执行任务。
Flume
代理是构建数据流
的基本单元,它从源中采集和整理数据,最终通过通道将数据传输到数据槽。
匿名函数
没有指定识别符(变量名称)的函数。这些函数通常在运行时构造,并作为参数传递
给高阶函数;也可以用它们轻松创建闭包。传递匿名函数给
Spark
操作来定义它们的行
为。另请参见“闭包”和“
lambda
函数”。
应用程序编程接口
application programming interface
API
用于指定软件组件如何交互的例程、协议和接口的集合。
MapReduce API
指定用于构建
MapperReducer Job 子类的接口,定义
MapReduce
行为。与之类似,
Spark
也有可
以应用于
RDD
的转换和动作的
API
193
194
术语表
ApplicationMaster
YARN
中,
ApplicationMaster
是特定于框架的库(例如本书中的
MapReduce
Spark
Hive
)的实例。
ApplicationMaster ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648