book

从零开始学习深度学习

by Seth Weidman

May 2025

Beginner to intermediate

252 pages

3h 16m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

理解神经网络需要多种心理模型章节大纲本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
功能数学图表代码衍生产品数学图表代码嵌套函数图表数学代码另一张图表连锁规则数学代码一个稍长的例子数学图表代码多输入功能数学图表代码多输入函数的导数图表数学代码多矢量输入函数数学从现有功能创建新功能数学图表代码多向量输入函数的导数图表数学代码矢量函数及其导数：更进一步图表数学代码矢量函数及其导数后向传递有两个二维矩阵输入的计算图数学图表代码有趣的部分向后传球图表数学代码结论
监督学习概述监督学习模型线性回归线性回归：图解线性回归：更有用的图表（和数学知识）添加截距线性回归：代码训练模型计算梯度示意图计算梯度：数学（和一些代码）计算梯度完整）代码使用这些梯度来训练模型评估我们的模型：训练集与测试集评估我们的模式：守则分析最重要的特征从零开始的神经网络步骤 1：一系列线性回归步骤 2：非线性函数步骤 3：另一次线性回归图表代码神经网络：后向传递训练和评估我们的第一个神经网络出现这种情况的两个原因结论
深度学习的定义：初体验神经网络的构件：操作图表代码神经网络的构件：层图表积木上的积木图层蓝图致密层神经网络类，也许还有其他类图表代码损失等级从零开始的 Deep Learning实施批量培训神经网络代码培训师和优化师优化器训练员把所有东西放在一起我们的首个 Deep Learning 模型（从零开始）结论和下一步措施
关于神经网络的一些直觉Softmax 交叉熵损失函数组件 1：软最大函数组成部分 2：交叉熵损失关于激活功能的说明实验数据预处理模型实验Softmax 交叉熵损失动力动力直觉在优化器类中实现动量实验随机梯度下降与动量学习率衰减学习率衰减的类型实验：学习率衰减重量初始化数学与代码实验：权重初始化辍学定义实施情况实验：辍学结论
神经网络和表征学习图像数据的不同架构卷积操作多通道卷积操作卷积层实施影响卷积层与全连接层的区别利用卷积层进行预测扁平层汇集层执行多通道卷积操作前传卷曲：后退通道批处理、二维卷积和多通道二维卷积最后的元素添加 "通道使用该操作训练 CNN压平操作完整的 Conv2D 层实验结论
关键限制：处理分支自动区分梯度累积编码建立递归神经网络的动机递归神经网络简介RNN 第一课RNNLayerRNN 的第二课堂RNNN 节点将这两门课结合起来后退通道RNNs：代码RNNLayer 类RNN 节点的基本要素"香草 "RNN 节点普通 "RNN 节点的局限性一个解决方案GRUNodesLSTMNodes基于字符级 RNN 语言模型的数据表示方法其他语言建模任务组合 RNNLayer 变体将这一切融为一体结论
PyTorch 张量器使用 PyTorch 进行深度学习PyTorch 元素：模型、层、优化器和损耗使用 PyTorch 实现神经网络构建模块：密集层示例：PyTorch 中的波士顿房价模型PyTorch 元素：优化器和损耗PyTorch 元素：训练器在 PyTorch 中优化学习的技巧PyTorch 中的卷积神经网络数据加载器和变换PyTorch 中的 LSTM后记通过自动编码器进行无监督学习表征学习处理无标签情况的方法在 PyTorch 中实现自动编码器无监督学习的更大考验和解决方案结论
矩阵链规则相对于偏差项的损失梯度通过矩阵乘法进行卷积

Content preview from 从零开始学习深度学习

第 6 章循环神经网络递归神经网络

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

本章我们将介绍递归神经网络（RNN），这是一类用于处理数据序列的神经网络架构。迄今为止，我们所见过的神经网络都将接收到的每批数据视为一组独立的观测数据；无论是第 4 章中的全连接神经网络，还是第 5 章中的卷积神经网络，都不存在 MNIST 中某些数字在其他数字之前或之后出现的概念。然而，许多类型的数据本质上都是有序的，无论是在工业或金融背景下可能需要处理的时间序列数据，还是字符、单词、句子等都是有序的语言数据。递归神经网络旨在学习如何接收此类数据序列，并将正确的预测作为输出返回，无论这种正确的预测是对金融资产次日价格的预测，还是对句子中下一个单词的预测。

与我们在前几章中看到的全连接神经网络相比，处理有序数据需要做出三种改变。首先，它需要为我们输入神经网络的ndarray"增加一个新维度"。以前，我们提供给神经网络的数据本质上是二维的--每个ndarray 都有一个维度代表观测值的数量，另一个维度代表特征的数量；¹另一种看法是，每个观测值都是一维向量。对于递归神经网络，每个输入仍将有一个维度代表观察结果的数量，但每个观察结果将表示为一个二维ndarray ：一个维度将代表数据序列的长度，第二个维度将代表每个序列元素上存在的特征数量。因此，RNN 的整体输入将是一个三维ndarray 的形状[batch_size, sequence_length, num_features]，即一批序列。

其次，当然，为了处理这种新的三维输入，我们必须使用一种新的神经网络架构，这将是本章的重点。然而，第三个变化也是我们本章要开始讨论的地方：我们必须使用一个完全不同的框架和不同的抽象来处理这种新形式的数据。为什么？在全连接神经网络和卷积神经网络中，每个 "操作"，即使实际上代表了许多单独的加法和乘法（如矩阵乘法或卷积），都可以被描述为一个单一的 "迷你工厂"，它在前向和后向传递中都接收一个ndarray 作为输入，并产生一个ndarray 作为输出（可能使用另一个ndarray 代表操作的参数作为这些计算的一部分）。事实证明，递归神经网络无法以这种方式实现。在进一步阅读了解原因之前，请花些时间思考一下：神经网络架构的哪些特征会导致我们迄今为止建立的框架崩溃？虽然答案很有启发性，但完整的解决方案涉及深入实施细节的概念，超出了本书的范围。²首先，让我们来揭示一下我们迄今为止所使用的框架的一个关键局限。

关键限制：处理分支

事实证明，我们的框架无法使用图 6-1 所示的计算图来训练模型。

这有什么问题吗？将前向传递转化为代码似乎没有问题（注意，我们在这里编写了Add 和Multiply 操作，仅供参考）：

a1 = torch.randn(3,3)
w1 = torch.randn(3,3)

a2 = torch.randn(3,3)
w2 = torch.randn(3,3)

w3 = torch.randn(3,3)

# operations
wm1 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341657755Supplemental Content

从零开始学习深度学习

by Seth Weidman

第 6 章循环神经网络递归神经网络

关键限制：处理分支

图 6-1. 导致我们的 Operation 框架失效的计算图：同一数量在前向遍历中多次重复，这意味着我们不能像之前那样简单地在后向遍历中依次向后发送梯度。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

设计数据密集型应用程序

PyTorch深度学习

数据驱动力：企业数据分析实战

R深度学习权威指南

Publisher Resources

第 6 章 循环神经网络 递归神经网络

关键限制：处理分支

图 6-1. 导致我们的 Operation 框架失效的计算图：同一数量在前向遍历中多次重复，这意味着我们不能像之前那样简单地在后向遍历中依次向后发送梯度。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

设计数据密集型应用程序

PyTorch深度学习

数据驱动力：企业数据分析实战

R深度学习权威指南

Publisher Resources

第 6 章循环神经网络递归神经网络

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.