第14章 使用主成分分析降维

在本章中,我们将讨论一项降低数据维度的技术,称为主成分分析(PCA)。降维是由一些问题带来的。首先,它可以被用来缓解由维度诅咒带来的问题。其次,降维可以被用于压缩数据,同时将丢失数据的量最小化。最后,理解上百维的数据结构非常困难,仅有二维或者三维的数据可以轻松地进行可视化。我们将使用PCA算法将高维度数据集在两个维度上进行可视化,同时建立一个面部识别系统。

回顾前面章节的内容,涉及高维度数据的问题经常会被维度诅咒所影响。随着一个数据集维度数量的增加,一个估计器所需的样本数量会成指数倍增加。在一些应用中获取如此庞大的数据是不可行的,同时从大数据集中学习需要更多的内存以及处理能力。另外,数据的稀疏程度经常会随着维度的增加而增加。在高维度空间中由于所有实例的稀疏程度都很类似,找出类似的实例是一件很困难的事。

PCA也叫作卡尔胡宁-勒夫转换(KLT),是一种用于在高维空间中发现模式的技术。PCA经常被用于探索和可视化高维度数据集。它可以被用于压缩数据,和被另一个估计器所用之前处理数据。PCA将一系列可能相关联的高维变量减少为一系列被称为主成分的低维度线性不相关合成变量。这些低维度数据会尽可能多地保存原始数据的方差。PCA通过将数据投影到一个低维度子空间来减少一个数据集的维度。例如,一个二维数据集可以通过把点投影到一条直线来减少维度,数据集中的每一个实例会由单个值来表示而不是一对值。一个三维数据集可以通过把变量投影到一个平面上来降低到二维。总的来说,一个m维数据集可以通过投影到一个n维子空间来降维,n小于m。更正式地,PCA可以用于找出一系列向量,这些向量能够扩张一个能将投影数据平方误差和最小化的子空间,这个投影能保留原始数据集的最大方差比例。 ...

Get scikit-learn机器学习(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.