第4章 随机森林
随机森林由一系列决策树(决策树描述见第3章)组成,每一棵决策树由随机抽取的数据子集产生。通过投票表决的方式,随机森林把特征值归类至得票最多的类中。随机森林可以同时减少偏差和方差,因此,它往往能比决策树提供更加精确的特征分类结果。
本章涵盖内容如下:
- 装袋法(引导聚类法)是随机森林构建的一部分,它可以推广到数据科学中的其他算法和方法,用于减少偏差和方差,以提高预测结果准确性;
- 以游泳偏好案例构建随机森林,并用构建出的随机森林对样本数据进行分类;
- 如何用Python实现随机森林算法;
- 朴素贝叶斯、决策树和随机森林算法在分析下棋案例时的差异;
- 通过购物案例,分析随机森林如何克服决策树的不足之处,以及为什么优于决策树算法;
- 章末练习描述了如何通过减小分类器的方差,以产生更精准的结果。
4.1 随机森林算法概述
通常来讲,我们需要在一开始决定所构建决策树的个数。随机森林通常不会产生过拟合问题(噪声数据除外),因此选择构建大量的决策树不会降低预测的准确性。然而,决策树越多,所需的计算能力越高。此外,大幅度地增加随机森林中决策树的个数,分类的准确性并不会提升很大。值得注意的是,在构建决策树过程中,必须有足够多的决策树,使得在随机抽选的时候大部分训练数据能够参与到分类中。
在实践中我们可以运行构建特定数量的决策树的算法,并不断地增加树的个数,比较树少和树多的随机森林的分类结果。如果结果极其相似,则停止增加树的个数。
为了简化示范过程,本书使用包含少量决策树的随机森林。
随机森林构造概述
本节会描述如何以随机抽样的方式构建每棵树。具体地,已知N个训练特征值,通过有放回地从初始数据中随机抽取N个特征数据来构建决策树。随机选择构建每棵树所需数据的过程称为装袋法(树装袋)。采取装袋法的方式抽取训练数据可以减少分类结果的方差和偏差。 ...
Get 精通数据科学算法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.