Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
46
3
框架上快速部署和运行作业的库。使用
mrjob 编写的作业通常是包含完整
MapReduce
代码
的单个文件,可以直接在本地文件系统、
EMR
或常规的
Hadoop
集群上执行。此外,可以
通过简单的配置文件配置作业。
dumbo 库是最早的
Python Hadoop Streaming
框架之一,虽然没有被经常维护,但使用广
泛。
Tom White
编写的《
Hadoop
权威指南》认为它是可选的框架。dumbo 框架完全封装了
Hadoop Streaming
,并使用 TypedBytes 来提高性能。通过它,可以高效地编写复杂的链式
MapReduce
作业。它还附带用于管理和执行作业、提供与
HDFS
交互的命令行脚本。
最后,简单地使用
Hadoop Streaming
是迄今为止性能最优的解决方案,因为它不依赖于第
三方库,而且足够轻巧,可以部署在各种分析场景中。本书中的
MapReduce
示例将使用本
章描述的
Streaming
机制。对于更大、更复杂的分析,开发人员需要评估这些框架,使其
成为工作流程的一部分。
3.3
 
MapReduce
进阶
这一节将介绍一些与
MapReduce
紧密相关的高级主题,引入一些在
MapReduce
算法和优
化中发挥重要作用的概念,因为你在阅读其他有关如何实现不同分析的资料时会遇到这些
术语。这里不会介绍如何使用这些工具,而是从
概念
层面去介绍,以便在你对
MapReduce
进行深入探索时,不会对它们感到陌生。
这些工具很难在没有
Java API
的情况下实现,因此不适合将它们放入介绍 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648