
无监督学习
|
241
7.2
K-
均值聚类
聚类是一种将数据分割成不同分组的技术,其中每个分组中的记录彼此非常相似。聚类的
目标之一是识别出显著的和有意义的数据分组,这些分组可以直接使用,或者进行更加深
入的分析,或者作为特征或结果传递给预测回归或分类模型。
K-
均值
(
K-means
)是最早
提出的一种聚类方法,因为它的算法非常简单,而且能够扩展到大数据集上,所以现在仍
然被广泛使用。
本节关键术语
簇
一组相似的记录。
簇均值
一个向量,表示簇中记录的变量均值。
K
簇的数量。
K-
均值通过最小化每条记录到其所属簇的均值的距离的平方和,将数据划分为
K
个簇。这
个平方和称为
簇内平方和
(
within-cluster
sum of squares
),或者
簇内
SS
。
K-
均值不能保证
簇有同样的大小,但可以找到最佳划分的簇。
归一化
通常,需要将连续变量归一化(标准化),方法是先减去均值,再除以标准
差。否则,数值较大的变量会主导聚类过程(参见
6.1.4
节
)。
7.2.1
一个简单的例子
我们从一个有
n
条记录但只有两个变量(
x
和
y
)的数据集开始。假设我们想将数据划分为
K
=
4
个
簇,也就是说要将每条记录
(
x
i
,
y
i
)
分配给一个簇
k
。如果为簇
k
分配了
n
k
条记录,
那么簇的中心点
就是该簇中所有点的均值:
k
n
∈
=
∑
ㄳ
1
ik
k
n
∈
=
∑
ㄳ