book

从零开始学习深度学习

by Seth Weidman

May 2025

Beginner to intermediate

252 pages

3h 16m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

理解神经网络需要多种心理模型章节大纲本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
功能数学图表代码衍生产品数学图表代码嵌套函数图表数学代码另一张图表连锁规则数学代码一个稍长的例子数学图表代码多输入功能数学图表代码多输入函数的导数图表数学代码多矢量输入函数数学从现有功能创建新功能数学图表代码多向量输入函数的导数图表数学代码矢量函数及其导数：更进一步图表数学代码矢量函数及其导数后向传递有两个二维矩阵输入的计算图数学图表代码有趣的部分向后传球图表数学代码结论
监督学习概述监督学习模型线性回归线性回归：图解线性回归：更有用的图表（和数学知识）添加截距线性回归：代码训练模型计算梯度示意图计算梯度：数学（和一些代码）计算梯度完整）代码使用这些梯度来训练模型评估我们的模型：训练集与测试集评估我们的模式：守则分析最重要的特征从零开始的神经网络步骤 1：一系列线性回归步骤 2：非线性函数步骤 3：另一次线性回归图表代码神经网络：后向传递训练和评估我们的第一个神经网络出现这种情况的两个原因结论
深度学习的定义：初体验神经网络的构件：操作图表代码神经网络的构件：层图表积木上的积木图层蓝图致密层神经网络类，也许还有其他类图表代码损失等级从零开始的 Deep Learning实施批量培训神经网络代码培训师和优化师优化器训练员把所有东西放在一起我们的首个 Deep Learning 模型（从零开始）结论和下一步措施
关于神经网络的一些直觉Softmax 交叉熵损失函数组件 1：软最大函数组成部分 2：交叉熵损失关于激活功能的说明实验数据预处理模型实验Softmax 交叉熵损失动力动力直觉在优化器类中实现动量实验随机梯度下降与动量学习率衰减学习率衰减的类型实验：学习率衰减重量初始化数学与代码实验：权重初始化辍学定义实施情况实验：辍学结论
神经网络和表征学习图像数据的不同架构卷积操作多通道卷积操作卷积层实施影响卷积层与全连接层的区别利用卷积层进行预测扁平层汇集层执行多通道卷积操作前传卷曲：后退通道批处理、二维卷积和多通道二维卷积最后的元素添加 "通道使用该操作训练 CNN压平操作完整的 Conv2D 层实验结论
关键限制：处理分支自动区分梯度累积编码建立递归神经网络的动机递归神经网络简介RNN 第一课RNNLayerRNN 的第二课堂RNNN 节点将这两门课结合起来后退通道RNNs：代码RNNLayer 类RNN 节点的基本要素"香草 "RNN 节点普通 "RNN 节点的局限性一个解决方案GRUNodesLSTMNodes基于字符级 RNN 语言模型的数据表示方法其他语言建模任务组合 RNNLayer 变体将这一切融为一体结论
PyTorch 张量器使用 PyTorch 进行深度学习PyTorch 元素：模型、层、优化器和损耗使用 PyTorch 实现神经网络构建模块：密集层示例：PyTorch 中的波士顿房价模型PyTorch 元素：优化器和损耗PyTorch 元素：训练器在 PyTorch 中优化学习的技巧PyTorch 中的卷积神经网络数据加载器和变换PyTorch 中的 LSTM后记通过自动编码器进行无监督学习表征学习处理无标签情况的方法在 PyTorch 中实现自动编码器无监督学习的更大考验和解决方案结论
矩阵链规则相对于偏差项的损失梯度通过矩阵乘法进行卷积

Content preview from 从零开始学习深度学习

第 4 章扩展扩展

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在上一章中，我们花了两章的时间从第一原理出发，推理了什么是深度学习模型以及它们应该如何工作，最终建立了第一个深度学习模型，并对其进行了训练，以解决一个相对简单的问题，即根据房屋的数字特征预测房价。然而，在大多数现实世界的问题上，成功训练深度学习模型并不那么容易：虽然可以想象，这些模型可以为任何可以被框定为监督学习问题的问题找到一个最优解，但在实践中，它们往往会失败，事实上，理论上很少有人能保证给定的模型架构事实上会为给定的问题找到一个好的解决方案。不过，还是有一些广为人知的技术能让神经网络训练更有可能取得成功；这些技术将是本章的重点。

我们将从开始，回顾神经网络在数学上的 "尝试"：找到函数的最小值。然后，我将展示一系列可以帮助网络实现这一目标的技术，并在经典的手写数字 MNIST 数据集上演示其有效性。我们将从深度学习中贯穿分类问题的一个损失函数开始，展示它能显著加快学习速度（本书迄今为止我们只涉及回归问题，因为我们还没有引入这个损失函数，因此还不能很好地处理分类问题）。同样，我们还将介绍除 sigmoid 之外的其他激活函数，并说明为什么它们也能加速学习，同时讨论一般激活函数所涉及的权衡问题。接下来，我们将介绍动量，它是我们迄今为止一直在使用的随机梯度下降优化技术最重要（也是最直接）的扩展，同时还将简要讨论更高级的优化器可以做些什么。最后，我们将介绍三种互不相关但都至关重要的技术：学习率衰减、权重初始化和辍学。我们将看到，每种技术都将帮助我们的神经网络连续找到更多最优解。

在第一章中，我们按照 "图表-数学-代码 "的模式介绍了每个概念。在本章中，每种技术都没有明显的图表，因此我们将从每种技术的 "直觉 "开始，然后是数学（通常比第一章简单得多），最后是代码，这实际上需要将技术融入我们构建的框架，从而精确描述它如何与我们在上一章中形式化的构建模块进行交互。本着这种精神，我们将在本章开头介绍一些 "整体 "直觉，说明神经网络想要做什么：找到函数的最小值。

关于神经网络的一些直觉

正如我们已经看到的，神经网络包含一堆权重；给定这些权重，再加上一些输入数据X 和y ，我们就可以计算出结果 "损失"。图 4-1展示了神经网络这种极为高层次（但仍然正确）的视图。

实际上，每个权重都与特征X 、目标y 、其他权重以及最终的损失L 存在某种复杂的非线性关系。如果我们将其绘制成图，改变权重值，同时保持其他权重、X 和y 的值不变，并绘制出损失的结果值L ，我们就可以看到类似图 4-2 所示的结果。

当我们开始训练神经网络时，我们会将每个权重初始化为图 4-2 中 x 轴上的某个值。然后，利用我们在反向传播过程中计算出的梯度，我们反复更新权重，第一次更新基于我们偶然选择的初始值的曲线斜率。¹图 4-3展示了这种几何解释，即根据梯度和 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341657755Supplemental Content

从零开始学习深度学习

by Seth Weidman

第 4 章扩展扩展

关于神经网络的一些直觉

图 4-1. 带权重的神经网络的简单思路

图 4-2. 神经网络的权重与其损耗的关系

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

设计数据密集型应用程序

PyTorch深度学习

数据驱动力：企业数据分析实战

R深度学习权威指南

Publisher Resources

第 4 章 扩展 扩展

关于神经网络的一些直觉

图 4-1. 带权重的神经网络的简单思路

图 4-2. 神经网络的权重与其损耗的关系

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

设计数据密集型应用程序

PyTorch深度学习

数据驱动力：企业数据分析实战

R深度学习权威指南

Publisher Resources

第 4 章扩展扩展

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.