第8章 Anaconda中的无监督学习

在讨论无监督学习之前,本章先介绍监督学习(supervised learning),因为大多数读者都已熟悉前面几章中讨论过的函数。一个函数y=f(x) 通常有自变量的一组值{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{n}} 和因变量y的一组对应值。在前几章中,我们讨论了各种类型的函数,例如单因子线性模型。我们的任务是对于给定的一组输入值,求出函数的公式。对于监督学习,有两个数据集:训练数据(training data)和测试数据(test data)。训练数据集包含一组输入变量和相关的输出值[也称为监督信号(supervisory signal)]。监督学习算法会对训练数据进行分析,并生成一个推断函数(inferred function),然后应用这个推断函数来映射给定的测试数据集。

与监督学习不同,无监督学习中并没有y。换句话说,无监督学习用于从数据集中获取推断函数,而该数据集仅仅包含输入数据,并未包含标签响应。从某种意义上来说,对于监督学习,同时有xy;而对于无监督学习,只有x。换句话说,对于一个算法,我们同时拥有输入和输出;而对于另一个算法,则只有输入。最常见的无监督学习方法是聚类分析(Cluster Analysis),它用于探索性数据分析以发现数据中的隐藏模式或分组规律。

本章包含以下主题:

  • 无监督学习简介 ...

Get Anaconda数据科学实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.