May 2024
Intermediate to advanced
181 pages
3h 9m
Chinese
聚类分析是一种将数据划分为多个组(簇)的技术,同一组(簇)中数据的特征在某种意义上是相似的。
本章将会介绍以下内容:
以年收入为4万、 5.5万、 7万、 10万、 11.5万、 13万和13.5万美元的家庭为例。将他们的收入视作(簇内)相似度的衡量标准。如果将家庭分成两个组,那么第一个组包含收入为4万、 5.5万、 7万美元的家庭;第二个组包含收入10万、 11.5万、 13万和13.5万美元。
(这样分类)是因为4万和13.5万离彼此最远,需要有两个组,且它们必须在不同的组中。5.5万比13.5万更接近4万,所以4万和5.5万将在同一个组中。同样,13万和13.5万将在同一个组。7万比13万和13.5万更接近4万和5.5万,所以7万应该在4万和5.5万的组中。11.5万比第一个组的4万、 5.5万和7万更接近13万和13.5万,因此它将在第二个组中。最后,10万更靠近第二个组的11.5万、 13万和13.5万,所以它将在这个组中。因此,第一个组包含年收入为4万、 5.5万和7万的家庭。第二组包含年收入为10万、 11.5万、 13万和13.5万的家庭。
聚类是一种分类形式,它将拥有相似属性值的特征聚到一起并分配到一个簇中。数据科学家需要解释聚类的结果以及它引导的分类形式。年收入为4万、 5.5万、7万美元的家庭代表低收入家庭类别;年收入10万、 ...
Read now
Unlock full access