第7章　监督学习之回归——MLlib

本章将包含以下教程。

7.1　简介

下面是监督学习在维基百科中的定义。

“监督学习是由标记的训练数据产生一个推断函数的机器学习任务。”

监督学习有两个步骤。

有两个监督学习的算法。

分类不仅限于两个数值，也可以有多个数值，比如把邮件标记为重要、不重要或者紧急等（0，1，2…）。

提示：

本章我们主要讲回归，下一章讲分类。

我们将使用加州萨拉托加市的房屋销售数据作为回归的样例数据集，用作训练算法的一个训练数据集。当算法训练完成后，我们会让它根据房屋的面积来预测房价。图7-1说明了监督学习的工作流程。

图7-1中的假设（Hypothesis）好像和它所做的比较起来有些用词不当，或许你认为叫作预测函数也许更好些，但叫作假设是由于历史原因。

$..\Doc3.files\0701.tif$

图7-1　监督学习工作流图

如果我们只用一个特征值来预测结果，这就叫二元分析。当有很多特征值时就叫多元分析。事实上只要我们喜欢，我们就可以拥有任意多的特征值。比如第8章要介绍的支持向量机（SVM）算法，它允许你有无限的特征。 ...

Get Spark Cookbook （中文版） now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.