第9章　无监督学习——MLlib

这一章主要讲述如何使用Spark的机器学习库MLlib进行无监督学习。

本章包括如下内容。

9.1　简介

无监督学习的维基百科定义如下。

“在机器学习中，无监督学习的问题是，在无标记的数据中，试图找到隐藏的结构。”

与监督学习用标记好的数据去训练算法相反，无监督学习让算法自己去找出内部结构。让我们看看下面的样本数据，如图9-1所示。

如图9-2所示，这些数据点组成了两个簇。

0901

图9-1　样本数据

0902

图9-2　分簇样本数据

事实上，聚类是最常见的无监督学习算法。

聚类分析或者聚类算法是把数据划分成多个组，其中一个组的数据与其他组的数据相似。

下面是一些聚类算法的用例。

k-means算法最好用图像说明，那让我们再看一遍样本图，如图9-3所示。

Get Spark Cookbook （中文版） now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.