May 2024
Intermediate to advanced
181 pages
3h 9m
Chinese
随机森林由一系列决策树(决策树描述见第3章)组成,每一棵决策树由随机抽取的数据子集产生。通过投票表决的方式,随机森林把特征值归类至得票最多的类中。随机森林可以同时减少偏差和方差,因此,它往往能比决策树提供更加精确的特征分类结果。
本章涵盖内容如下:
通常来讲,我们需要在一开始决定所构建决策树的个数。随机森林通常不会产生过拟合问题(噪声数据除外),因此选择构建大量的决策树不会降低预测的准确性。然而,决策树越多,所需的计算能力越高。此外,大幅度地增加随机森林中决策树的个数,分类的准确性并不会提升很大。值得注意的是,在构建决策树过程中,必须有足够多的决策树,使得在随机抽选的时候大部分训练数据能够参与到分类中。
在实践中我们可以运行构建特定数量的决策树的算法,并不断地增加树的个数,比较树少和树多的随机森林的分类结果。如果结果极其相似,则停止增加树的个数。
为了简化示范过程,本书使用包含少量决策树的随机森林。
本节会描述如何以随机抽样的方式构建每棵树。具体地,已知N个训练特征值,通过有放回地从初始数据中随机抽取N个特征数据来构建决策树。随机选择构建每棵树所需数据的过程称为装袋法(树装袋)。采取装袋法的方式抽取训练数据可以减少分类结果的方差和偏差。 ...
Read now
Unlock full access