第3章　防止过拟合

在第2章中，我们学习了如何训练一个基本的神经网络。对于用于模型训练的留存数据进行验证后，我们还看到，进一步的训练迭代或者更大的神经网络产生的收益都在递减。这里强调的是，尽管一个更复杂的模型几乎总是会把训练它的数据拟合得更好，但它未必能把新数据预测得更好。本章介绍为了提升泛化能力而用于防止数据过拟合的不同的方法，称为无监督数据上的正则化（regularization on unsupervised data）。更具体地说，与通常地按照减少训练（training）误差的方式来优化参数训练模型不同，正则化关注于减少测试（testing）或验证（validation）误差，这样模型在新数据上的性能会和在训练数据上的一样好。

本章的开始提供了各种正则化策略的一个概念性的综述，以一个使用正则化来提升样本外性能的用例结束。它包含了下面的主题。

L1罚函数
L2罚函数
集成方法与模型平均
用例——使用丢弃提升样本外的模型性能

3.1　L1罚函数

L1罚函数，也称为最小绝对值收缩和选择算子（Least Absolute Shrinkage and Selection Operator，lasso）（Hastie, T., Tibshirani, R.和Friedman, J.（2009）），它的基本思想是一种用来把权重向零的方向缩减的惩罚。惩罚项使用的是权重绝对值的和，所以无论对于小的还是大的权重，惩罚的程度不会更小或者更大，结果是小的权重会缩减到零，作为一种方便的效果，除了防止过拟合之外，它还可以作为一种变量选择的方法。惩罚的力度是由一个超参数λ所控制的，它乘以权重绝对值的和，可以被预先设定，或者就像其他超参数那样，使用交叉验证或者一些类似的方法来优化。

就数学上来讲，从普通最小二乘（Ordinary ...

Get R深度学习权威指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial