book

机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

by Aurélien Géron

October 2020

Intermediate to advanced

693 pages

16h 26m

Chinese

China Machine Press

Read now

Unlock full access

Content preview from 机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

降维

｜

195

呈指数式上升。仅仅 100 个特征下（远小于 MNIST 问题），要让所有训练实例（假设在

所有维度上平均分布）之间的平均距离小于 0.1，你需要的训练实例数量就比可观察宇宙

中的原子数量还要多。

8.2 降维的主要方法

在深入研究特定的降维算法之前，让我们看一下减少维度的两种主要方法：投影和流形学习。

8.2.1 投影

在大多数实际问题中，训练实例并不是均匀地分布在所有维度上。许多特征几乎是恒定

不变的，而其他特征则是高度相关的（如之前针对 MNIST 所述）。结果，所有训练实例

都位于（或接近于）高维空间的低维子空间内。这听起来很抽象，所以让我们看一个示

例。在图 8-2 中，你可以看到由圆圈表示的 3D 数据集。

图 8-2：靠近 2D 子空间的 3D 数据集

请注意，所有训练实例都位于一个平面附近：这是高维（3D）空间的低维（2D）子空

间。如果我们将每个训练实例垂直投影到该子空间上（如实例连接到平面的短线所示），

我们将获得如图 8-3 所示的新 2D 数据集

—

我们刚刚将数据集的维度从 3D 减少到 2D。

注意，轴对应于新特征

和

（平面上投影的坐标）。

但是，投影并不总是降低尺寸的最佳方法。在许多情况下，子空间可能会发生扭曲和转

动，例如在图 8-4 中所示的著名的瑞士卷小数据集中。

如图 8-5 左侧所示，简单地投影到一个平面上（例如，去掉

维度）会将瑞士卷的不同

层挤压在一起。你真正想要的是展开瑞士卷，得到图 8-5 右侧的 2D 数据集。

196

｜

第

章

图 8-3：投影后的新 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

算法技术手册（原书第2 版）

George T.Heineman, Gary Pollice, Stanley Selkow

Go语言编程

威廉·肯尼迪

数据库系统内幕

Alex Petrov

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977