Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
Scala
Spark
进行数据分析
23
如果要把数据导出,你可以通过调用任何
DataFrame
实例的
write
方法访问
DataFrameWriter
API
DataFrameWriter API
支持与
DataFrameReader API
相同的内置格式,所以要把文
件保存成
parquet
格式的话,以下两种方法都可以:
d1.write.format("parquet").save("file.parquet")
d1.write.parquet("file.parquet")
默认情况下,
Spark
在保存
DataFrame
时,如果目标文件已存在,
Spark
会抛出一个错
误信息。你可以通过
DataFrameWriter API
的枚举类型
SaveMode
,控制
Spark
在这种情
况下的行为。你可以选择强制覆盖(
Overwrite
)、在文件末尾追加(
Append
),或者文
件已存在时跳过这次写入(
Ignore
):
d2.write.mode(SaveMode.Ignore).parquet("file.parquet")
你也可以用一个字符串(
"overwrite"
"append"
"ignore"
)来指定
SaveMode
,就像
R
Python
DataFrame API
时一样。
2.8
 用
DataFrame API
来分析数据
Spark
RDD API
为分析数据提供了少量易用的方法,例如
count()
方法可以计算一个
RDD
包含的记录数,
countByValue()
方法可以获取不同值的分布直方图 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525