第7章 监督学习之回归——MLlib

本章将包含以下教程。

  • 使用线性回归。
  • 理解代价函数。
  • 使用Lasso线性回归。
  • 使用岭回归。

下面是监督学习在维基百科中的定义。

“监督学习是由标记的训练数据产生一个推断函数的机器学习任务。”

监督学习有两个步骤。

  • 用训练数据集训练算法;这就像先给出一些问题和它的答案。
  • 使用测试数据集向训练好的算法提一些问题。

有两个监督学习的算法。

  • 回归:预测连续数值的输出,比如房价。
  • 分类:预测离散值(0或者1)的输出,叫作标记,比如一封邮件是不是垃圾邮件。

分类不仅限于两个数值,也可以有多个数值,比如把邮件标记为重要、不重要或者紧急等(0,1,2…)。

提示.tif

提示:

本章我们主要讲回归,下一章讲分类。

我们将使用加州萨拉托加市的房屋销售数据作为回归的样例数据集,用作训练算法的一个训练数据集。当算法训练完成后,我们会让它根据房屋的面积来预测房价。图7-1说明了监督学习的工作流程。

图7-1中的假设(Hypothesis)好像和它所做的比较起来有些用词不当,或许你认为叫作预测函数也许更好些,但叫作假设是由于历史原因。

..\Doc3.files\0701.tif

图7-1 监督学习工作流图

如果我们只用一个特征值来预测结果,这就叫二元分析。当有很多特征值时就叫多元分析。事实上只要我们喜欢,我们就可以拥有任意多的特征值。比如第8章要介绍的支持向量机(SVM)算法,它允许你有无限的特征。 ...

Get Spark Cookbook (中文版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.