第8章 聚类分析

聚类算法是一种根据数据点之间的相似程度来区分组别的算法。这些聚类算法类似于分类算法,也是将数据集划分成相似点的子集。但是,分类数据的类别已经标识出,比如甜的水果,而聚类算法则研究未知的组别。

点集S上的度量是一个函数d:S\times S\to R ,对所有的x,y,z\in S ,它满足下列条件:

(1)d(p,q)=0\Leftrightarrow p=q

(2)d(p,q) = d(p,q)

(3)d(p,q) ≤ d(p,r)+ d(r,q)

通常,我们考虑将数字d(p,q)作为pq之间的距离。根据上面的解释,这3个条件的意义很明显:一个点到它本身的距离是0;如果两个点之间的距离是0,那它们必然是同一个点;从pq的距离与从qp的距离是一样的;从pq的距离不能大于从pr与从rq的距离的和。最后这个性质叫作三角不等式。

在数学上,一个非空的集合S连同定义在它上面的度量d叫作一个度量空间。最简单的例子是n维欧氏空间,其中,并且d是一个欧氏度量,即

在二维情形下,且。这就是笛卡儿平面上点的普通距离公式,等价于毕达哥拉斯定理,如图8-1所示。

图8-1 二维中的欧几里得度量 ...

Get Java数据分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.