
228
|
第
6
章
图 6-10:XGBoost 默认模型与惩罚模型的误差率比较
岭回归与
Lasso
这种添加一个对模型复杂度的惩罚项来避免过拟合的方法,可以追溯到
20
世纪
70
年
代。最小二乘回归最小化的是残差平方和(
RSS
),参见
4.1.3
节。
岭回归
最小化残差
平方和与一个惩罚项的和,这个惩罚项是关于系数数量和大小的一个函数:
22 2
01 1
1
ˆˆ ˆˆˆ
ii
i
Yb bX bX
λ
=
−− −− +++
∑
λ
的值确定了对系数的惩罚强度,这个值越大,模型对数据过拟合的可能性就越小。
Lasso
也是同样的原理,只是它使用曼哈顿距离作为惩罚项,而不是欧氏距离:
2
01 1
ˆˆ ˆˆˆ
(|
|)
ii
i
Yb bX bX
α
=
−− −− +++
∑
如果使用欧氏距离,就称为
L2
正则化;使用曼哈顿距离,就称为
L1
正则化。在
xgboost
中,参数
lambda
(
reg_lambda
)和
alpha
(
reg_alpha
)的作用也是一样的。
6.4.4
超参数与交叉验证
xgboost
中有非常多的超参数,参见后面“
XGBoost
超参数”部分的介绍。正如在
6.4.3
节
中看到的,超参数的具体选择可以极大地改变模型拟合。有很多超参数组合可供选择,那