Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
使用高级
API
进行分析
149
进行运行时间上的对比,你会发现
DataFrame
不仅速度快
4~5
倍,而且还消除了
Python
JVM
实现(
http://bit.ly/1r2vMhm
)的性能差距,如图
8-4
所示。
不仅代码量更少,而且速度更快
聚合1000万整数对所需的时间(秒)
8-4DataFrame 优化
DataFrame API
简洁直观的语义,加上它计算引擎提供的性能优化,促使
DataFrame
成为
Spark
所有模块(包括
Spark SQL
RDD
MLlib
GraphX
)的主要接口。通过这种方
式,
DataFrame API
提供了统一的引擎,跨越了
Spark
的所有数据源、工作负载和环境,如
8-5
所示。
8-5:作为 Spark 统一接口的 DataFrame
在上一个例子中,我们使用
Spark SQL
read 接口加载了
SF
停车场地数据。但实际上,
150
8
我们创建了一个叫作
parking
DataFrame
。在那个例子中,我们将
DataFrame
注册为临
时表来执行原始
SQL
查询,在 parking
DataFrame
上也有很多可以调用的关系运算符和窗
口函数。事实上,通过将几个简单的
DataFrame
操作连接起来,就可以重写上一个例子中
SQL
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648