
110
|
第
3
章
针对问题选择合适的工具
同样重要的是要记住偏差-方差权衡。一些集成技术在处理偏差或方差方面比其他
方法更好(表
3-2
)。特别是,
boosting
适用于处理高偏差,而
bagging
对修正高方
差是有用的。话虽如此,正如我们在前面的“
bagging
”一节中所看到的,将两个具
有高度相关误差的模型结合起来无助于降低方差。简而言之,用错误的集成方法解
决我们的问题并不一定会提高性能,只会增加不必要的开销。
表
3
-
2
:偏差和方差之间权衡的总结
问题
集成解决方案
高偏差
(
欠拟合
) boosting
高方差
(
过拟合
) bagging
其他集成方法
我们已经讨论了机器学习中一些常见的集成技术。上面列举的并不是集成技术的全
部,有符合这些宽泛类别的不同算法。还有其他的集成技术,包括许多结合贝叶斯
方法或结合神经架构搜索和强化学习的方法,如
Google
的
AdaNet
或
AutoML
技术。
简而言之,集成设计模式采用了组合多种机器学习模型的技术来提高模型的整体性
能,在解决诸如高偏差或高方差等常见的模型训练问题时有一定的效果。
设计模式
8
:级联
级联设计模式用于处理一个机器学习问题可以被分解为一系列机器学习子问题的情
况。这样的级联往往需要精心设计机器学习实验。
问题
如果我们需要将常见和不常见的活动同时预测为一个值,会发生什么?模型将学会
忽略不常见的活动,因为它很罕见。如果不常见的活动也与异常值相关,那么可训
练性就会受到影响。
例如,假设我们要训练一个模型来预测客户将退回他们所购买的商品的可能性。如
果我们训练单个模型 ...