Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
用决策树算法预测森林植被
73
别的样本,
p
i
是类别
i
的样本所占比例,于是可以得到如下
Gini
不纯度公式:
2
1
( ) 1
N
G i
i
I p p
=
=
如果子数据集中所有样本都属于一个类别,则
Gini
不纯度的值为
0
,因为这个子数据集完
全是“纯”的。当子数据集中的样本来自
N
个不同的类别时,
Gini
不纯度的值大于
0
,并
且在每个类别的样本数都相同时达到最大,也就是最不纯的情况。
熵是另一种度量不纯性的方式,它来源于信息论。解释熵的本质更困难,但熵代表了子集中
目标取值集合对子集中的数据所做的预测的不确定程度。如果子集只包含一个类别,则是完
全确定的,熵为
0
。相反,如果一个子集包含了所有可能的类别,那么对该子集进行预测有
很大的不确定性,因为数据的目标值是各种各样的。这就意味着这个子集有较大的熵。因
此,较小的熵,就像较小的
Gini
不纯度一样,是比较好的。熵可以用以下熵计算公式定义:
1 1
1
( ) log log( )
N N
E i i i
i i
I p p p p
p
= =
= =
有意思的是,不确定性是有单位的。由于取自然对数(以
e
为底),熵的单
位是
纳特
nat
)。相对于以
e
为底的纳特,我们更熟悉它对应的
比特
(以
2
为底取对数即可得到)。它实际上度量的是信息,因此在使用熵的决策树中,
我们也常说决策规则的
信息增益
不同的数据集上对于挑选好的决策规则方面,这两个度量指标各有千秋。
Spark
的实现默
认采用
Gini
不纯度。
最后,最小信息增益是指一种超参数,它会导致最小信息增益,或最小不纯度降低。在改 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525