Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
Scala
Spark
进行数据分析
27
...
+--------+-------+
|is_match| cnt|
+--------+-------+
| false|5728201|
| true| 20931|
+--------+-------+
Python
一样,
Scala
3
个连续的双引号可以用来表示一个跨多行的字符串。
Spark 1.
x
Spark SQL
编译器主要是为了兼容
HiveQL
中的非标准语法,这样用户就能比较容易地
Apache Hive
迁移到
Spark
上来。
Spark 2.0
默认使用兼容
ANSI 2003
Spark SQL
,当
然我们也可以选择使用
HiveQL
模式,只需通过
Spark Session
Builder API
创建一个
SparkSession
实例,然后调用
enableHiveSupport
方法即可。
Spark
中进行数据分析,到底是应该使用
Spark SQL
还是
DataFrame API
呢?这两种
方法各有利弊。
SQL
大家都很熟悉,简单的查询很容易表达。在常用的列式存储中,如
ORC
Parquet
SQL
是快速读取和过滤存储最好的方式。
SQL
的缺点是很难用动态、可
读和可测试的方式来表达复杂的多阶段分析,而这些都是
DataFrame API
的强项。在本书
的其余章节,
Spark SQL
DataFrame API
二者都会使用。读者可以思考一下我们为什么
这样选择,并练习如何在二者之间进行转换。
Spark SQL
Hive
的连接
Spark ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525