Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
Scala
Spark
进行数据分析
29
情况对变量的分布有何影响。尽管数据集相对较小,单做这种比较也没有多大意思,但其
实我们真正想做的是对
matchSummary
missSummary
这两个
DataFrame
做一个转置,将它
们的行与列调换,这样就可以将两个转置过的
DataFrame
按变量关联起来,以便分析这些
概要统计信息,这种做法被大多数数据科学家称为“数据集转置”(
pivoting
)或“重塑”
reshaping
)。下一节将展示如何在
Spark
中执行这些转换。
2.10
 
DataFrame
的转置和重塑
为了转置概要统计信息,首先要做的是将
matchSummary
missSummary
这两个
DataFrame
类型实例从“宽表”转换成“长表”。宽表中行代表指标,列代表变量;长表的每一行代
表一个指标、一个变量,以及指标和变量对应的值。转换完成后,我们就可以将长表形式
DataFrame
转换成另外一个宽表形式的
DataFrame
,这样就完成了转置操作,只不过这
一次操作中,变量对应行,指标对应列。
将宽表转换成长表,可以利用
DataFrame
flatMap
方法,它是
RDD.flatMap
的一个封装。
flatMap
Spark
中最有用的转换函数之一:它接受一个函数作为参数,该函数处理一条输
入记录,并返回一个包含零条或多条输出记录的序列。你可以将
flatMap
看作我们使用过的
map
filter
转换函数的一般形式:
map
flatMap
的一种特殊形式,即一条输入记录仅产
生一条输出记录;
filter ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525