
降维
|
195
呈指数式上升。仅仅 100 个特征下(远小于 MNIST 问题),要让所有训练实例(假设在
所有维度上平均分布)之间的平均距离小于 0.1,你需要的训练实例数量就比可观察宇宙
中的原子数量还要多。
8.2 降维的主要方法
在深入研究特定的降维算法之前,让我们看一下减少维度的两种主要方法:投影和流形学习。
8.2.1 投影
在大多数实际问题中,训练实例并不是均匀地分布在所有维度上。许多特征几乎是恒定
不变的,而其他特征则是高度相关的(如之前针对 MNIST 所述)。结果,所有训练实例
都位于(或接近于)高维空间的低维子空间内。这听起来很抽象,所以让我们看一个示
例。在图 8-2 中,你可以看到由圆圈表示的 3D 数据集。
图 8-2:靠近 2D 子空间的 3D 数据集
请注意,所有训练实例都位于一个平面附近:这是高维(3D)空间的低维(2D)子空
间。如果我们将每个训练实例垂直投影到该子空间上(如实例连接到平面的短线所示),
我们将获得如图 8-3 所示的新 2D 数据集
—
我们刚刚将数据集的维度从 3D 减少到 2D。
注意,轴对应于新特征
z
1
和
z
2
(平面上投影的坐标)。
但是,投影并不总是降低尺寸的最佳方法。在许多情况下,子空间可能会发生扭曲和转
动,例如在图 8-4 中所示的著名的瑞士卷小数据集中。
如图 8-5 左侧所示,简单地投影到一个平面上(例如,去掉
x
3
维度)会将瑞士卷的不同
层挤压在一起。你真正想要的是展开瑞士卷,得到图 8-5 右侧的 2D 数据集。