
634
|
附录
A
较小的学习率,使用饱和的激活函数(例如双曲线正切,默认设置),并可以在每个
时间步长中使用梯度修剪、层归一化或 dropout。要解决有限的短期记忆问题,可以
使用 LSTM 或 GRU 层(这也有助于解决不稳定梯度的问题)。
6. LSTM 单元的架构看起来很复杂,但是如果你了解底层逻辑,实际上并不太难。该
单元具有短期状态向量和长期状态向量。在每个时间步长,输入和先前的短期状态
被馈送到一个简单的 RNN 单元和三个门:遗忘门决定从长期状态中删除什么,输
入门决定简单 RNN 单元的输出的哪一部分应该添加到长期状态,然后输出门决定
长期状态的哪一部分应该输出(经过 tanh 激活函数之后)。新的短期状态等于单元
的输出。见图 15-9。
7. 一个 RNN 层基本上是顺序的:为了在时间步长
t
计算输出,它必须首先在所有较早
的时间步长计算输出。这使得不可能并行计算。另一方面,一维卷积层很适合并行
化,因为它不保持时间步长之间的状态。换句话说,它没有内存:在任何时间步长
的输出都仅基于输入值的一小窗口进行计算,而不必知道所有过去的值。此外,由
于一维卷积层不是递归的,因此受不稳定梯度的影响较小。 RNN 中的一个或多个
一维卷积层可用于有效地预处理输入,例如降低其时间分辨率(下采样),从而帮助
RNN 层检测长期模式。实际上,通过构建 WaveNet 架构,可以仅使用卷积层。
8. 为了根据视频的视觉内容对视频进行分类,一种可能的架构是每秒取一帧,然后通
过相同的卷积神经网络运行每一帧(例如,预先训练的 ...