第8章 降维——改进机器学习模型的性能

本章主要内容

  • 分步回归
  • 主成分分析

在处理大数据时,我们往往会遇到非常复杂的问题。例如,如何针对数百个变量构建数学模型,且保持计算可解呢?很多简单的数学模型、算法的计算复杂度随特征向量的维度呈指数级增长,尽管有解析解,但实际上计算机可能需要几个月甚至几年才能得出结果,这种模型、算法称为计算不可解。如何对数百维向量进行可视化呢?人们只能理解三维图形,加上颜色、形状,可以可视化五维数据,但更高维度的可视化需要许多技巧。学术界针对高维数据中的数据处理问题研究了一系列方法,其中最常用的一种称为降维(dimensionality reduction)处理。降维是指将一组高维数据映射到低维数据,同时尽最大可能减小信息损失的数据处理方法。通常用特征选择和特征提取这两种方法来实现这个目标。特征选择是直接在高维数据中选取少数维度数据代表整体;特征提取则通过建立高维数据到低维数据映射关系的方法,降低特征矩阵的维度。

降维方法之所以有效,是因为真实世界的数据集中普遍存在两种现象:噪声(noise)和信息冗余(特征值矩阵的多个维度相关性极高,多个变量均衡量目标的同一属性。例如圆的直径、半径和周长这 3 个特征值是线性相关的,已知一个值可以没有信息损失地计算出另外两个值)。通过降维方法,能够找出特征值矩阵中最不具有相关性的几个维度,并只使用这些维度代表整个特征值矩阵,继续后面的建模、求解等工作,以降低计算难度。降维具有多种用处,例如,对于噪声高的数据集,降维能够在很大程度上去除噪声;几十、数百维的模型是人脑无法理解的,降低维度可以增强模型的可解释性;降维后的结果更易于可视化等。

在本章中,我们将学习如何进行特征选择和特征提取,了解不同方法适用的不同场景及其优缺点。 ...

Get MATLAB机器学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.