第5章 k-means聚类
聚类分析是一种将数据划分为多个组(簇)的技术,同一组(簇)中数据的特征在某种意义上是相似的。
本章将会介绍以下内容:
- k均值聚类算法在家庭收入案例中的应用;
- 以性别分类为例,将特征值优先与已知类别的特征值进行聚类,以此实现分类;
- 5.3节详述了如何用Python实现k-means聚类算法;
- 房屋所有权案例分析,以及分析如何选择合适的簇数量;
- 以文档聚类为例,理解簇数量的不同如何影响簇之间分界线的含义。
5.1 家庭收入——聚类为k个簇
以年收入为4万、 5.5万、 7万、 10万、 11.5万、 13万和13.5万美元的家庭为例。将他们的收入视作(簇内)相似度的衡量标准。如果将家庭分成两个组,那么第一个组包含收入为4万、 5.5万、 7万美元的家庭;第二个组包含收入10万、 11.5万、 13万和13.5万美元。
(这样分类)是因为4万和13.5万离彼此最远,需要有两个组,且它们必须在不同的组中。5.5万比13.5万更接近4万,所以4万和5.5万将在同一个组中。同样,13万和13.5万将在同一个组。7万比13万和13.5万更接近4万和5.5万,所以7万应该在4万和5.5万的组中。11.5万比第一个组的4万、 5.5万和7万更接近13万和13.5万,因此它将在第二个组中。最后,10万更靠近第二个组的11.5万、 13万和13.5万,所以它将在这个组中。因此,第一个组包含年收入为4万、 5.5万和7万的家庭。第二组包含年收入为10万、 11.5万、 13万和13.5万的家庭。
聚类是一种分类形式,它将拥有相似属性值的特征聚到一起并分配到一个簇中。数据科学家需要解释聚类的结果以及它引导的分类形式。年收入为4万、 5.5万、7万美元的家庭代表低收入家庭类别;年收入10万、 ...
Get 精通数据科学算法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.