第10章 使用决策树和集成模型构建机器学习系统

在本章中,我们将讨论以下内容:

  • 获取和预处理实际的医疗数据,研究Spark 2.0中的决策树和集成模型;
  • 使用Spark 2.0的决策树构建分类系统;
  • 使用Spark 2.0的决策树解决回归问题;
  • 使用Spark 2.0的随机森林构建分类系统;
  • 使用Spark 2.0的随机森林解决回归问题;
  • 使用Spark 2.0的梯度提升树(GBT)构建分类系统;
  • 使用Spark 2.0的梯度提升树(GBT)解决回归问题。

决策树是在商业领域应用最久远、最广泛的机器学习方法之一。决策树流行不仅是因为它具有处理复杂的分区和分割问题的能力(比线性模型更灵活),还因为它能解释如何实现解决方案,以及为什么结果能被预测或分类为一个类或标签。

Apache Spark提供了一套决策树算法的完美组合方案,能够完全充分利用Spark的并行性。Spark的实现方案从直接单一的决策树(CART算法)到集成树,例如随机森林和GBT(梯度提升树),它们都有能处理分类(例如分类变量,比如高度=短/高)或回归(比如连续变量,比如身高=2.5米)问题的各种变种。

图10-1所示的思维导图描述了在本书完成编写之时,Spark机器学习库所包含的决策树算法。

图片 1

图10-1

快速理解决策树算法的一种简便方法是将其视作一种试图最小化损失函数(例如L2或最小二乘)的智能分区算法,尝试将取值范围分区寻找能最佳拟合数据决策边界的分割空间。通过对数据重采样、特征组合,决策树可以集成为一种更复杂的集成模型,集成模型中的各个学习器(原始的部分样本或者某种特征组合)通过投票机制得到最终结果。 ...

Get Spark机器学习实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.