第13章　K-均值算法

在前面的章节中，我们讨论了监督学习任务。我们检验了从标记训练数据中学习的回归和分类算法。在本章中，我们将介绍第一个无监督学习任务——聚类。聚类被用于在一个非标记数据集中发现类似观测值的群组。我们将讨论K-均值聚类算法，将其运用到一个图片压缩问题，同时学习如何衡量它的性能。最后，我们将解决一个同时包含聚类和分类的半监督学习问题。

13.1　聚类

回顾第1章，无监督学习的目标是在非标记训练数据中发现隐藏的结构或模式。聚类或者聚类分析，是一种将观测值划分群组的任务，它能让相同群组或者聚类的成员，在某种衡量标准下相互之间比和其他聚类的成员之间更加类似。正如监督学习一样，我们将把一个观测值表示为一个n-维向量。

例如，假设你的训练数据由图中的一些点组成，如图13.1所示。

聚类可以生成两个群组，分别由方块和圆形表示，如图13.2所示。

聚类也可以产出4个群组，如图13.3所示。

聚类经常被用来探索数据集。社交网络可以被聚类分为特定的社群，并对用户之间失去的联系提出建议。在生物学中，聚类可以用来发现具有类似表达模式的基因群组。推荐系统有时会使用聚类来定位一个用户可能感兴趣的产品或媒体。在市场营销中，聚类被用来发现相似用户的分组。在后面的内容中，我们将解决一个使用K-均值算法对一个数据集进行聚类的例子。

$..\13-1.tif$

图13.1

图13.2

图13.3

13.2　K-均值算法

K-均值算法是一种聚类方法，它因速度和稳定性而广受欢迎。K-均值算法的过程是一个迭代移动聚类中心（也被称为 ...

Get scikit-learn机器学习（第2版） now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

scikit-learn机器学习（第2版） by Posts & Telecom Press, Gavin Hackeling

第13章　K-均值算法

13.1　聚类

13.2　K-均值算法

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第13章 K-均值算法

13.1 聚类

13.2 K-均值算法

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第13章　K-均值算法

13.1　聚类

13.2　K-均值算法