第8章　降维——改进机器学习模型的性能

本章主要内容

分步回归
主成分分析

在处理大数据时，我们往往会遇到非常复杂的问题。例如，如何针对数百个变量构建数学模型，且保持计算可解呢？很多简单的数学模型、算法的计算复杂度随特征向量的维度呈指数级增长，尽管有解析解，但实际上计算机可能需要几个月甚至几年才能得出结果，这种模型、算法称为计算不可解。如何对数百维向量进行可视化呢？人们只能理解三维图形，加上颜色、形状，可以可视化五维数据，但更高维度的可视化需要许多技巧。学术界针对高维数据中的数据处理问题研究了一系列方法，其中最常用的一种称为降维（dimensionality reduction）处理。降维是指将一组高维数据映射到低维数据，同时尽最大可能减小信息损失的数据处理方法。通常用特征选择和特征提取这两种方法来实现这个目标。特征选择是直接在高维数据中选取少数维度数据代表整体；特征提取则通过建立高维数据到低维数据映射关系的方法，降低特征矩阵的维度。

降维方法之所以有效，是因为真实世界的数据集中普遍存在两种现象：噪声（noise）和信息冗余（特征值矩阵的多个维度相关性极高，多个变量均衡量目标的同一属性。例如圆的直径、半径和周长这 3 个特征值是线性相关的，已知一个值可以没有信息损失地计算出另外两个值）。通过降维方法，能够找出特征值矩阵中最不具有相关性的几个维度，并只使用这些维度代表整个特征值矩阵，继续后面的建模、求解等工作，以降低计算难度。降维具有多种用处，例如，对于噪声高的数据集，降维能够在很大程度上去除噪声；几十、数百维的模型是人脑无法理解的，降低维度可以增强模型的可解释性；降维后的结果更易于可视化等。

在本章中，我们将学习如何进行特征选择和特征提取，了解不同方法适用的不同场景及其优缺点。 ...

Get MATLAB机器学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

MATLAB机器学习 by Posts & Telecom Press, Giuseppe Ciaburro

第8章　降维——改进机器学习模型的性能

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第8章 降维——改进机器学习模型的性能

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第8章　降维——改进机器学习模型的性能