Skip to Main Content
数据科学中的实用统计学(第2版)
book

数据科学中的实用统计学(第2版)

by Peter Bruce, Andrew Bruce, Peter Gedeck
October 2021
Intermediate to advanced content levelIntermediate to advanced
289 pages
8h 31m
Chinese
Posts & Telecom Press
Content preview from 数据科学中的实用统计学(第2版)
无监督学习
241
7.2
 
K-
均值聚类
聚类是一种将数据分割成不同分组的技术,其中每个分组中的记录彼此非常相似。聚类的
目标之一是识别出显著的和有意义的数据分组,这些分组可以直接使用,或者进行更加深
入的分析,或者作为特征或结果传递给预测回归或分类模型。
K-
均值
K-means
)是最早
提出的一种聚类方法,因为它的算法非常简单,而且能够扩展到大数据集上,所以现在仍
然被广泛使用。
本节关键术语
一组相似的记录。
簇均值
一个向量,表示簇中记录的变量均值。
K
簇的数量。
K-
均值通过最小化每条记录到其所属簇的均值的距离的平方和,将数据划分为
K
个簇。这
个平方和称为
簇内平方和
within-cluster
sum of squares
),或者
簇内
SS
K-
均值不能保证
簇有同样的大小,但可以找到最佳划分的簇。
归一化
通常,需要将连续变量归一化(标准化),方法是先减去均值,再除以标准
差。否则,数值较大的变量会主导聚类过程(参见
6.1.4
)。
7.2.1
 一个简单的例子
我们从一个有
n
条记录但只有两个变量(
x
y
)的数据集开始。假设我们想将数据划分为
K
=
4
簇,也就是说要将每条记录
(
x
i
,
y
i
)
分配给一个簇
k
。如果为簇
k
分配了
n
k
条记录,
那么簇的中心点
( , )
kk
xy
就是该簇中所有点的均值:
1
ki
ik
k
xx
n
=
1
ki
ik
k
yy
n
=
242
7
簇均值
在对有多个变量的记录(多数都是这种情况)进行聚类时,
簇均值
不是指一
个数值,而是指由所有变量的均值组成的向量。
簇内平方和的计算公式如下: ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pandas数据清洗与建模

Pandas数据清洗与建模

丹尼尔·陈
C++语言导学(原书第2版)

C++语言导学(原书第2版)

本贾尼 斯特劳斯特鲁普

Publisher Resources

ISBN: 9787115569028