第3章 防止过拟合

在第2章中,我们学习了如何训练一个基本的神经网络。对于用于模型训练的留存数据进行验证后,我们还看到,进一步的训练迭代或者更大的神经网络产生的收益都在递减。这里强调的是,尽管一个更复杂的模型几乎总是会把训练它的数据拟合得更好,但它未必能把新数据预测得更好。本章介绍为了提升泛化能力而用于防止数据过拟合的不同的方法,称为无监督数据上的正则化(regularization on unsupervised data)。更具体地说,与通常地按照减少训练(training)误差的方式来优化参数训练模型不同,正则化关注于减少测试(testing)或验证(validation)误差,这样模型在新数据上的性能会和在训练数据上的一样好。

本章的开始提供了各种正则化策略的一个概念性的综述,以一个使用正则化来提升样本外性能的用例结束。它包含了下面的主题。

  • L1罚函数
  • L2罚函数
  • 集成方法与模型平均
  • 用例——使用丢弃提升样本外的模型性能

L1罚函数,也称为最小绝对值收缩和选择算子(Least Absolute Shrinkage and Selection Operator,lasso)(Hastie, T., Tibshirani, R.和Friedman, J.(2009)),它的基本思想是一种用来把权重向零的方向缩减的惩罚。惩罚项使用的是权重绝对值的和,所以无论对于小的还是大的权重,惩罚的程度不会更小或者更大,结果是小的权重会缩减到零,作为一种方便的效果,除了防止过拟合之外,它还可以作为一种变量选择的方法。惩罚的力度是由一个超参数λ所控制的,它乘以权重绝对值的和,可以被预先设定,或者就像其他超参数那样,使用交叉验证或者一些类似的方法来优化。

就数学上来讲,从普通最小二乘(Ordinary ...

Get R深度学习权威指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.