Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
Python
框架和
Hadoop Streaming
39
能有效说明集群是如何使用
mapper
reducer
代码的。这种方法非常适合在编写脚本时进
行快速测试,因为你不用等待
Hadoop Streaming
作业完成,也不需要解析
Java
调用过程
traceback
)。如果你在进行测试驱动开发(这是敏捷数据科学的自然补充),则可以使用
Popen 模拟管道进行集成测试。
在下面的示例中,我们使用
$HADOOP_HOME
之类的环境变量指定特定的路径或
配置。尽管这些环境变量的名称在每个
Hadoop
发行版中可能有所不同,但
它们通常在发行版安装时就已经被设置好了。本书示例假设你使用的是伪分
布式的节点设置,如附录
A
所述。
为了将代码部署到集群,需要将
Hadoop Streaming JAR
提交给作业客户端,并传入自定
义的操作符参数。
Hadoop Streaming
作业的位置取决于
Hadoop
集群的设置。现在假设你
设置了环境变量 $HADOOP_HOME 并且 $HADOOP_HOME/bin $PATH 中,$HADOOP_HOME 指定了
Hadoop
的安装位置。这样就可以按照如下所示的方法在集群上执行
Streaming
作业:
$
hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \
-input flights.csv \
-output average_delay \
-mapper mapper.py ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648