第13章 K-均值算法

在前面的章节中,我们讨论了监督学习任务。我们检验了从标记训练数据中学习的回归和分类算法。在本章中,我们将介绍第一个无监督学习任务——聚类。聚类被用于在一个非标记数据集中发现类似观测值的群组。我们将讨论K-均值聚类算法,将其运用到一个图片压缩问题,同时学习如何衡量它的性能。最后,我们将解决一个同时包含聚类和分类的半监督学习问题。

回顾第1章,无监督学习的目标是在非标记训练数据中发现隐藏的结构或模式。聚类或者聚类分析,是一种将观测值划分群组的任务,它能让相同群组或者聚类的成员,在某种衡量标准下相互之间比和其他聚类的成员之间更加类似。正如监督学习一样,我们将把一个观测值表示为一个n-维向量。

例如,假设你的训练数据由图中的一些点组成,如图13.1所示。

聚类可以生成两个群组,分别由方块和圆形表示,如图13.2所示。

聚类也可以产出4个群组,如图13.3所示。

聚类经常被用来探索数据集。社交网络可以被聚类分为特定的社群,并对用户之间失去的联系提出建议。在生物学中,聚类可以用来发现具有类似表达模式的基因群组。推荐系统有时会使用聚类来定位一个用户可能感兴趣的产品或媒体。在市场营销中,聚类被用来发现相似用户的分组。在后面的内容中,我们将解决一个使用K-均值算法对一个数据集进行聚类的例子。

..\13-1.tif

图13.1

图13.2

图13.3

K-均值算法是一种聚类方法,它因速度和稳定性而广受欢迎。K-均值算法的过程是一个迭代移动聚类中心(也被称为 ...

Get scikit-learn机器学习(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.