book

机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

October 2020

Intermediate to advanced

693 pages

16h 26m

Chinese

Read now

Unlock full access

634

｜

附录

较小的学习率，使用饱和的激活函数（例如双曲线正切，默认设置），并可以在每个

时间步长中使用梯度修剪、层归一化或 dropout。要解决有限的短期记忆问题，可以

使用 LSTM 或 GRU 层（这也有助于解决不稳定梯度的问题）。

6.　LSTM 单元的架构看起来很复杂，但是如果你了解底层逻辑，实际上并不太难。该

单元具有短期状态向量和长期状态向量。在每个时间步长，输入和先前的短期状态

被馈送到一个简单的 RNN 单元和三个门：遗忘门决定从长期状态中删除什么，输

入门决定简单 RNN 单元的输出的哪一部分应该添加到长期状态，然后输出门决定

长期状态的哪一部分应该输出（经过 tanh 激活函数之后）。新的短期状态等于单元

的输出。见图 15-9。

7.　一个 RNN 层基本上是顺序的：为了在时间步长

计算输出，它必须首先在所有较早

的时间步长计算输出。这使得不可能并行计算。另一方面，一维卷积层很适合并行

化，因为它不保持时间步长之间的状态。换句话说，它没有内存：在任何时间步长

的输出都仅基于输入值的一小窗口进行计算，而不必知道所有过去的值。此外，由

于一维卷积层不是递归的，因此受不稳定梯度的影响较小。 RNN 中的一个或多个

一维卷积层可用于有效地预处理输入，例如降低其时间分辨率（下采样），从而帮助

RNN 层检测长期模式。实际上，通过构建 WaveNet 架构，可以仅使用卷积层。

8.　为了根据视频的视觉内容对视频进行分类，一种可能的架构是每秒取一帧，然后通

过相同的卷积神经网络运行每一帧（例如，预先训练的 ...

George T.Heineman, Gary Pollice, Stanley Selkow

威廉·肯尼迪

Alex Petrov

Brendan Burns, Craig Tracey

ISBN: 9787111665977