Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
66
4
wilderness-
”和“
soil-related
”列分别被命名为“
Wilderness_Area_0
”和“
Soil_Type_0
”。
使用一些
Scala
代码可以生成这
44
个名字,不需要手动输入。最后,目标列“
Cover_
Type
”被预先转换成双精度值,在
Spark MLlib
所有
API
中,目标列通常都被视为双精度
浮点数类型而不是整型。这种转换是对用户透明的。
你可以调用
data.show()
来查看数据集的某些行,但是显示行非常宽,因此很难阅读。
data.head
可以显示原始的
Row
对象,在这种情况下使用
data.head
具有更好的可读性。
4.7
 第一棵决策树
3
章从所给数据中快速地建立了一个推荐模型。大家可以借助一些音乐知识凭感觉就能
对这个推荐引擎做一些判断:只要对比看看用户的收听习惯和引擎推荐的艺术家,就能大
概知道推荐引擎给出的推荐还不错。但在这里,这样做却是不可能的。我们既不知道怎样
54
个特征来描述科罗拉多州的一个从未见过的地块,也不知道如何预测这种地块上的
森林植被类型。
相反,我们可以直接从数据集中取出部分数据,用以评估所得到的模型。之前,为了评价保
留的收听数据和模型预测之间的一致性,我们采用
AUC
指标。这里我们采用同样的原理,
不过评价指标改为
准确率
accuracy
)指标。大部分数据(
90%
)会再次用作训练集,后面
我们将看到该训练集的子集用于交叉验证,这个子集就是交叉验证集。剩下
10%
的数据实
际上是第三个子集,会保留出来成为一个数量合理的测试集。
val ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525