第2章 聚类基础知识

在本章中,我们将介绍聚类分析的基本概念,并将注意力集中在被许多算法共享的主要原则以及可用于评估方法性能的最重要的技术上。

本章将着重讨论以下主题。

  • 聚类和距离函数简介。
  • K-means和K-means++。
  • 评估指标。
  • K-近邻K-Nearest NeighborsKNN)。
  • 向量量化Vector QuantizationVQ)。

本章中的代码需求如下。

  • Python 3.5+(强烈推荐Anaconda发行版)。
  • 库。
    • SciPy 0.19+。
    • NumPy 1.10+。
    • scikit-learn 0.20+。
    • pandas 0.22+。
    • Matplotlib 2.0+。
    • seaborn 0.9+。

数据集可以通过UCI数据集获得,除了在加载阶段添加列名外,不需要任何预处理。

示例代码可在本书配套的代码包中找到。

正如我们在第1章中所解释的,聚类分析的主要目的是根据相似性度量或邻近性标准对数据集的元素进行分组。在本章的前半部分中,我们将重点关注前一种方法,而在后半部分和第3章中,我们将分析利用数据集的其他几何特征的更通用的方法。

让我们采用数据生成过程pdata(x)并从中抽取N个样本:

X = { {\bar x_1},{\bar x_2}, \cdots ,{\bar x_N}\} , 其中{\bar x_i}\sim {p_{data}}(\bar x)

假设pdata ...

Get Python无监督学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.