第9章 集成方法:从决策树到随机森林
一个集成指的是估计器的组合,其性能要优于其中任何一个组件。在本章中,我们将介绍3种创建集成的方法:套袋法、推进法和堆叠法。首先,我们将把套袋法运用于上一章中介绍的决策树去创建一个称为随机森林的强大集成。接着,我们将介绍推进法和流行的AdaBoost算法。最后,我们将使用堆叠法从异类基础估计器创建集成。
9.1 套袋法
自发聚集或者套袋法,是一种能减少一个估计器方差的集成元算法。套袋法可以用于分类任务和回归任务。当组件估计器为回归器时,集成将平均它们的预测结果。当组件估计器为分类器时,集成将返回模类。
套袋法能在训练数据的变体上拟合多个模型。训练数据的变体使用一种称为自发重采样的流程来创建。通常来说,仅仅使用分布的一个样本来估计一个未知概率分布的参数是很有必要的。我们可以使用这个样本来计算一个统计数值,但是这个统计数值将会随我们恰巧取到的样本而变化。自发重采样是一种估计统计数值不确定性的方法。当且仅当样本中的观测值被独立地选取时,该方法才能被使用。自发重采样通过重复地对原采样进行替换进行采样来产出采样的多个变体。所有的变体采样将具有和原采样相同数量的观测值,同时任何一个观测值可能会包含多次或零次。我们可以通过这些变体的每一个计算我们的统计数值,并使用这些统计数据通过创建一个置信区间或者计算标准误差来估计我们估计中的不确定性。我们来了解一个例子,如代码9.1所示。
代码9.1
# In[1]: import numpy as np # Sample 10 integers sample = np.random.randint(low=1, high=100, size=10) print('Original sample: %s' % sample) ...
Get scikit-learn机器学习(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.