
模型改进与数据提取
|
187
(因为我们允许样本数据在某个训练集中出现多次,因此这
50
个训练集将可能交叉
使用部分数据,但是这不会影响我们的结果,只要每个训练集之间是独一无二的即可。)
然后将这些训练集供给
50
个不同的模型。
现在,我们就拥有
50
种不同的模型以及
50
个不同的答案。就像刚才提到的天气报告
一样,我们从中挑取出最喜欢的那个答案或者简单地在所有答案中求取均值。
这就是
bagging
法所做的事情:它平均了所有的模型所产生的结果,这些训练数据都
来自同一个训练集。关于
bagging
法的神奇之处在于模型最终得到了改进,因为它去
除了一些异常值倾向的数据。
但我们的讨论该到此为止吗?
bagging
法似乎有点幸运的成分,而且也不是很优雅。
下面我们来介绍另一个更强大的集成学习工具:促进法(
boosting
)。
促进法(
boosting
)
与之前将训练数据分割成多个数据模型不同,我们可以使用促进法
(boosting)
来优化
训练集中的最佳加权方案。
给定一个二进制的分类模型,如支持向量机、决策树、朴素贝叶斯分类器,或其他的
模型,我们都可以提高训练数据的质量并改善其结果。
假设你有一个训练集,正如我们刚才所描述的
1000
个数据点。我们通常操作的假设
前提是:所有的数据点都很重要,或它们是同等重要的。基于同样的想法,并开始假
设所有的数据点都是平等的。但是直觉告诉我们:并非所有的训练点都是同等重要的。
如果我们能够根据每一个训练点的相关权重来优化每一次输入会怎样呢?
这正是促进法的目标。许多算法都能达到这个目的,但目前最流行的是 ...