
40
|
第
1
章
没有免费的午餐定理
模型是观察的简化版。这个简化丢弃了那些不大可能泛化至新实例上的多余细节。
但是,要决定丢弃哪些数据以及保留哪些数据,你必须要做出假设。例如,线性模
型基于的假设就是数据基本上都是线性的,而实例与直线之间的距离都只是噪声,
可以安全地忽略它们。
1996 年 David Wolpert 在一篇著名论文中表明
注 11
,如果你对数据绝对没有任何假设,
那么就没有理由更偏好于某个模型,这称为没有免费的午餐(No Free Lunch,NFL)
定理。对某些数据集来说,最佳模型是线性模型,而对于其他数据集来说,最佳模
型可能是神经网络模型。不存在一个先验模型能保证一定工作得更好(这正是定理
名称的由来)。想要知道哪个模型最好的方法就是对所有模型进行评估,但实际上
这是不可能的,因此你会对数据做出一些合理的假设,然后只评估部分合理的模型。
例如,对于简单的任务,你可能只会评估几个具有不同正则化水平的线性模型,而
对于复杂问题,你可能会评估多个神经网络模型。
1.7 练习题
本章中,我们提及了机器学习中最重要的一些概念。第 2 章将会进行更深入的探讨,也
会写更多代码,但是在那之前,请先确保你已经知道如何回答下列问题:
1
1. 如何定义机器学习?
2. 机器学习在哪些问题上表现突出,你能给出四种类型吗?
3. 什么是被标记的训练数据集?
4. 最常见的两种监督学习任务是什么?
5. 你能举出四种常见的无监督学习任务吗?
6. 要让一个机器人在各种未知的地形中行走,你会使用什么类型的机器学习算法? ...