第8章 聚类分析
聚类算法是一种根据数据点之间的相似程度来区分组别的算法。这些聚类算法类似于分类算法,也是将数据集划分成相似点的子集。但是,分类数据的类别已经标识出,比如甜的水果,而聚类算法则研究未知的组别。
8.1 测量距离
点集S上的度量是一个函数,对所有的,它满足下列条件:
(1)
(2)d(p,q) = d(p,q)
(3)d(p,q) ≤ d(p,r)+ d(r,q)
通常,我们考虑将数字d(p,q)作为p和q之间的距离。根据上面的解释,这3个条件的意义很明显:一个点到它本身的距离是0;如果两个点之间的距离是0,那它们必然是同一个点;从p到q的距离与从q到p的距离是一样的;从p到q的距离不能大于从p到r与从r到q的距离的和。最后这个性质叫作三角不等式。
在数学上,一个非空的集合S连同定义在它上面的度量d叫作一个度量空间。最简单的例子是n维欧氏空间,其中,并且d是一个欧氏度量,即
在二维情形下,且。这就是笛卡儿平面上点的普通距离公式,等价于毕达哥拉斯定理,如图8-1所示。
图8-1 二维中的欧几里得度量 ...
Get Java数据分析指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.