Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
92
5
(20 to 100 by 20).map(k => (k, clusteringScore1(numericOnly, k))).
foreach(println)
➊
从默认值
20
开始增加。
默认为
1.0e
-
4
,这里比默认值小。
这时随着
k
值的增大,至少结果得分持续下降:
(20,1.8041795813813403E8)
(40,6.33056876207124E7)
(60,9474961.544965891)
(80,9388117.93747141)
(100,8783628.926311461)
我们要找到
k
值的一个临界点,过了这个临界点之后继续增加
k
值并不会显著地降低得分,
这个点就是
k
-
得分曲线的拐点。这条曲线通常在拐点之后会继续下行但最终趋于水平。
在本示例中,在
k
过了
100
这个点之后得分下降还是很明显,所以
k
的拐点值应该大于
100
5.7
 基于
SparkR
的可视化
再次进行聚类之前,我们先停下来,更深入地了解一下数据,这是有好处的。尤其是查看一
些数据的散点图是很有帮助的。
Spark
本身没有提供可视化工具,但是流行的开源统计环境
R
https://www.r-project.org/
)有
我们需要的数据探查和数据可视化工具。此外,
Spark
还通过
SparkR
https://spark.apache.
org/docs/latest/sparkr.html
)提供了一些与
R
的基础集成。这一节我们将简要地演示如何使用
R
SparkR
对数据进行聚类,并探查这些产生的簇群。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525