第7章 监督学习之回归——MLlib
本章将包含以下教程。
- 使用线性回归。
- 理解代价函数。
- 使用Lasso线性回归。
- 使用岭回归。
7.1 简介
下面是监督学习在维基百科中的定义。
“监督学习是由标记的训练数据产生一个推断函数的机器学习任务。”
监督学习有两个步骤。
- 用训练数据集训练算法;这就像先给出一些问题和它的答案。
- 使用测试数据集向训练好的算法提一些问题。
有两个监督学习的算法。
- 回归:预测连续数值的输出,比如房价。
- 分类:预测离散值(0或者1)的输出,叫作标记,比如一封邮件是不是垃圾邮件。
分类不仅限于两个数值,也可以有多个数值,比如把邮件标记为重要、不重要或者紧急等(0,1,2…)。
提示:
本章我们主要讲回归,下一章讲分类。
我们将使用加州萨拉托加市的房屋销售数据作为回归的样例数据集,用作训练算法的一个训练数据集。当算法训练完成后,我们会让它根据房屋的面积来预测房价。图7-1说明了监督学习的工作流程。
图7-1中的假设(Hypothesis)好像和它所做的比较起来有些用词不当,或许你认为叫作预测函数也许更好些,但叫作假设是由于历史原因。
图7-1 监督学习工作流图
如果我们只用一个特征值来预测结果,这就叫二元分析。当有很多特征值时就叫多元分析。事实上只要我们喜欢,我们就可以拥有任意多的特征值。比如第8章要介绍的支持向量机(SVM)算法,它允许你有无限的特征。 ...
Get Spark Cookbook (中文版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.