第6章 用Spark 2.0实践机器学习中的回归和分类——第二部分

在这一章,将讨论以下内容:

  • Spark 2.0使用SGD优化的线性回归;
  • Spark 2.0使用SGD优化的逻辑回归;
  • Spark 2.0使用SGD优化的岭回归;
  • Spark 2.0使用SGD优化的Lasso回归;
  • Spark 2.0使用L-BFGS优化的逻辑回归;
  • Spark 2.0的支持向量机(SVM);
  • Spark 2.0使用MLlib库的朴素贝叶斯分类器;
  • Spark 2.0使用逻辑回归研究ML管道和DataFrame。

这一章将重点介绍Spark 2.0中回归和分类内容的第二部分——基于RDD的回归,这些算法在许多现有的Spark机器学习实现中都有应用。现在既然存在这个代码库,那么不论中级还是高级从业者都应该能够使用这些技术。

在本章中,我们将通过Apache Spark API使用带有随机梯度下降(SGD)和L-BFGS优化的各种回归算法(线性回归、逻辑回归、岭回归和Lasso回归)和功能强大的线性分类算法(例如支持向量机SVM和朴素贝叶斯)学习实现一个简单的应用。我们对每个攻略补充样本拟合的度量指标(例如MSE、RMSE、ROC、二分类和多分类指标)来讲解Spark MLlib的功能和完整内容。首先介绍基于RDD的线性回归、逻辑回归、岭回归和Lasso回归,然后使用SVM和朴素贝叶斯来介绍更复杂的分类器。

图6-1描述了本章所覆盖的回归和分类算法。

图片 1

图6-1

 

提示

在实际应用中,使用带有SGD的回归算法存在一些问题,但是这些问题很可能是因为大型参数系统对SGD的优化不合理,也可能是没有正确理解SGD优化技术的优缺点。 ...

Get Spark机器学习实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.