Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
8
使用高级
API
进行分析
6
章解释了为什么要放弃原生
MapReduce
,转而使用
Hive
这样的较高级语言的部分原
因——因为前者实现起相对简单的操作也可能十分困难、笨拙和冗长。即便是经验丰富
Java
MapReduce
程序员也会发现,大多数严谨的
Hadoop
应用程序的开发周期都很
长,需要编写多个
mapper
reducer
并将它们链接起来,形成复杂的作业链或数据处理
工作流。
此外,由于
MapReduce
旨在以批处理方式运行,因此它在运行需要响应反馈的迭代处
理(包括许多机器学习算法)和交互式数据挖掘的数据分析时,会有许多限制。原生
MapReduce
在开发效率、维护和运行时表现出的性能方面的不足引发了对
Hadoop
更高层
次的抽象,甚至是扩展
MapReduce
范式的新处理引擎的需求。
本章将介绍
Pig
,它是
MapReduce
的一种编程抽象,有助于构建基于
MapReduce
的数据
流;此外,还将介绍一些扩展核心
RDD API
的新
Spark API
,让开发人员能使用他们熟悉
的基于
SQL
的概念和语法,降低计算结构化数据的难度。这些项目将提供表达力强大的
API
,使分析人员仅凭几行代码就能构建复杂的应用程序,从而提高
MapReduce
Spark
应用程序的开发效率。
8.1
 
Pig
Hive
一样,
Pig
也是一种
MapReduce
抽象。它允许用户用更高级的语言去表达数据处理
和分析操作,然后这些操作被编译成一个
MapReduce
作业。
Pig
是雅虎开发的一个工具,
通过将脚本表示为数据流
1
,使研究人员和工程师能更轻松地编写数据挖掘 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648