
无监督学习
|
259
扩展到大数据上。最后,这种算法非常复杂,与其他方法相比,它更加难以掌握。
本节要点
•
簇被假定为从多个具有不同概率分布的数据生成过程中产生的。
•
假定有不同数目的分布(通常是正态分布),需要拟合多个不同的模型。
•
这种方法会选择那种不需要使用太多参数(即过拟合)就能很好地拟合数据的模型
(以及相关的簇数目)。
7.4.4
扩展阅读
如果想了解基于模型的聚类的更多细节,可以参考
mclust
和
GaussianMixture
的文档。
7.5
数据缩放与分类变量
无监督学习技术通常需要对数据进行适当的缩放,这与多数回归和分类技术不同,在回归
与分类中,数据缩放并不重要(
KNN
是一种例外,参见
6.1
节
)。
本节关键术语
缩放
对数据进行挤压或扩展,通常使多个变量处于同一数量级。
归一化
一种缩放方法——先减去均值,再除以标准差。
同义词
标准化
Gower
距离
一种应用于数值型和分类型数据的混合数据的缩放算法,它把所有变量都转换到
0
和
1
之间。
举例来说,在个人贷款数据中,变量的单位和数量级都差别非常大。有些变量的值比较小
(如工作年限),而另一些变量的值则非常大(如以美元为单位的贷款额)。如果不进行数
据缩放,那么
PCA
、
K-
均值和其他聚类方法都会被数值大的变量所主导
,忽略那些数值较
小的变量。
分类数据会在某些聚类过程中造成特殊的问题。在
KNN
中
,无序的因子变量通常使用独
热编码(参见
6.1.3
节)
转换为一组二元变量(
0/1
)。二元变量很可能与其他数据不在一个
数量级上,而且因为它只有两个值,所以在
PCA