May 2024
Beginner to intermediate
549 pages
8h 11m
Chinese
在这一章,将讨论以下内容:
这一章将重点介绍Spark 2.0中回归和分类内容的第二部分——基于RDD的回归,这些算法在许多现有的Spark机器学习实现中都有应用。现在既然存在这个代码库,那么不论中级还是高级从业者都应该能够使用这些技术。
在本章中,我们将通过Apache Spark API使用带有随机梯度下降(SGD)和L-BFGS优化的各种回归算法(线性回归、逻辑回归、岭回归和Lasso回归)和功能强大的线性分类算法(例如支持向量机SVM和朴素贝叶斯)学习实现一个简单的应用。我们对每个攻略补充样本拟合的度量指标(例如MSE、RMSE、ROC、二分类和多分类指标)来讲解Spark MLlib的功能和完整内容。首先介绍基于RDD的线性回归、逻辑回归、岭回归和Lasso回归,然后使用SVM和朴素贝叶斯来介绍更复杂的分类器。
图6-1描述了本章所覆盖的回归和分类算法。

图6-1
提示
在实际应用中,使用带有SGD的回归算法存在一些问题,但是这些问题很可能是因为大型参数系统对SGD的优化不合理,也可能是没有正确理解SGD优化技术的优缺点。 ...
Read now
Unlock full access