Skip to Main Content
数据科学中的实用统计学(第2版)
book

数据科学中的实用统计学(第2版)

by Peter Bruce, Andrew Bruce, Peter Gedeck
October 2021
Intermediate to advanced content levelIntermediate to advanced
289 pages
8h 31m
Chinese
Posts & Telecom Press
Content preview from 数据科学中的实用统计学(第2版)
222
6
随机梯度提升
提升方法的一种最常用的算法,在每一轮次对记录和列进行重抽样。
正则化
一种避免过拟合的技术,它在成本函数中添加关于模型中参数数量的惩罚项。
超参数
需要在算法拟合之前设定的参数。
6.4.1
 提升算法
提升算法有多种,这些算法背后的基本思想是一样的。最容易理解的是
Adaboost
算法,它
的步骤如下。
1.
初始化
M
,即要拟合的模型的最大数量。设置迭代计数器
m
=
1
。初始化观测权重
w
i
=
1/
N
其中
i
=
1, 2,
,
N
。初始化集成模型
0
ˆ
F
=
0
2.
使用观测权重
w
1
,
w
2
,
,
w
N
训练一个模型
ˆ
m
f
,使得加权误差
e
m
最小,
e
m
是所有误分类
观测的权重总和。
3.
将这个模型添加到集成模型中:
1
ˆ
ˆˆ
=
mm mm
FF f
α
+
,其中
ln



4.
更新权重
w
1
,
w
2
,
,
w
N
,提高被误分类的观测的权重。提高的值依赖于
m
α
m
α
的值
越大,权重就越大。
5.
使模型计数器加
1
,即
m
=
m
+ 1
,如果
m
M
,返回第
2
步。
提升方法最后的估计由以下公式给出:
11 22
ˆˆ ˆ
ˆ
MM
Ff ff
αα α
=+ ++
通过提高误分类观测的权重,算法强迫模型在效果不好的数据上进行更多训练,因子
m
α
确保了误差更低的模型具有更高的权重。
梯度提升与
Adaboost
非常类似,但它是通过对一个成本函数进行优化来解决问题的。梯度
提升不调整权重,而是使用
伪残差
pseudo-residual
)来拟合模型
,这样就达到了在较大残
差上进行更多训练的效果。随机梯度提升借鉴了随机森林的思想,它通过在每个阶段对观 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pandas数据清洗与建模

Pandas数据清洗与建模

丹尼尔·陈
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787115569028