book

从零开始学习深度学习

Name: 从零开始学习深度学习
Author: Seth Weidman
ISBN: 9798341657755

by Seth Weidman

May 2025

Beginner to intermediate

252 pages

3h 16m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
理解神经网络需要多种心理模型章节大纲本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.基础
功能数学图表代码衍生产品数学图表代码嵌套函数图表数学代码另一张图表连锁规则数学代码一个稍长的例子数学图表代码多输入功能数学图表代码多输入函数的导数图表数学代码多矢量输入函数数学从现有功能创建新功能数学图表代码多向量输入函数的导数图表数学代码矢量函数及其导数：更进一步图表数学代码矢量函数及其导数后向传递有两个二维矩阵输入的计算图数学图表代码有趣的部分向后传球图表数学代码结论
2.基础知识
监督学习概述监督学习模型线性回归线性回归：图解线性回归：更有用的图表（和数学知识）添加截距线性回归：代码训练模型计算梯度示意图计算梯度：数学（和一些代码）计算梯度完整）代码使用这些梯度来训练模型评估我们的模型：训练集与测试集评估我们的模式：守则分析最重要的特征从零开始的神经网络步骤 1：一系列线性回归步骤 2：非线性函数步骤 3：另一次线性回归图表代码神经网络：后向传递训练和评估我们的第一个神经网络出现这种情况的两个原因结论
3.从零开始的 Deep Learning
深度学习的定义：初体验神经网络的构件：操作图表代码神经网络的构件：层图表积木上的积木图层蓝图致密层神经网络类，也许还有其他类图表代码损失等级从零开始的 Deep Learning实施批量培训神经网络代码培训师和优化师优化器训练员把所有东西放在一起我们的首个 Deep Learning 模型（从零开始）结论和下一步措施
4.扩展
关于神经网络的一些直觉Softmax 交叉熵损失函数组件 1：软最大函数组成部分 2：交叉熵损失关于激活功能的说明实验数据预处理模型实验Softmax 交叉熵损失动力动力直觉在优化器类中实现动量实验随机梯度下降与动量学习率衰减学习率衰减的类型实验：学习率衰减重量初始化数学与代码实验：权重初始化辍学定义实施情况实验：辍学结论
5.卷积神经网络
神经网络和表征学习图像数据的不同架构卷积操作多通道卷积操作卷积层实施影响卷积层与全连接层的区别利用卷积层进行预测扁平层汇集层执行多通道卷积操作前传卷曲：后退通道批处理、二维卷积和多通道二维卷积最后的元素添加 "通道使用该操作训练 CNN压平操作完整的 Conv2D 层实验结论
6.递归神经网络
关键限制：处理分支自动区分梯度累积编码建立递归神经网络的动机递归神经网络简介RNN 第一课RNNLayerRNN 的第二课堂RNNN 节点将这两门课结合起来后退通道RNNs：代码RNNLayer 类RNN 节点的基本要素"香草 "RNN 节点普通 "RNN 节点的局限性一个解决方案GRUNodesLSTMNodes基于字符级 RNN 语言模型的数据表示方法其他语言建模任务组合 RNNLayer 变体将这一切融为一体结论
7.PyTorch
PyTorch 张量器使用 PyTorch 进行深度学习PyTorch 元素：模型、层、优化器和损耗使用 PyTorch 实现神经网络构建模块：密集层示例：PyTorch 中的波士顿房价模型PyTorch 元素：优化器和损耗PyTorch 元素：训练器在 PyTorch 中优化学习的技巧PyTorch 中的卷积神经网络数据加载器和变换PyTorch 中的 LSTM后记通过自动编码器进行无监督学习表征学习处理无标签情况的方法在 PyTorch 中实现自动编码器无监督学习的更大考验和解决方案结论
A.深度潜水
矩阵链规则相对于偏差项的损失梯度通过矩阵乘法进行卷积
索引

Content preview from 从零开始学习深度学习

第 5 章卷积神经网络卷积神经网络

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

本章我们将介绍卷积神经网络（CNN）。卷积神经网络是标准的神经网络架构，用于在输入观测值为图像时进行预测，而这正是神经网络广泛应用的情况。到目前为止，我们在书中只关注了全连接神经网络，我们将其实现为一系列Dense 层。因此，我们将在本章开始时回顾这些网络的一些关键要素，并以此来说明为什么我们可能要对图像使用不同的架构。然后，我们将以类似于介绍本书其他概念的方式介绍 CNN：我们将首先从高层次讨论 CNN 的工作原理，然后转到低层次讨论 CNN，最后通过从头开始编码卷积操作来详细展示 CNN 的工作原理。¹本章结束时，你将对 CNN 的工作原理有足够透彻的了解，从而能够使用 CNN 解决问题，并自行学习高级 CNN 变体，如 ResNets、DenseNets 和 Octave Convolutions。

神经网络和表征学习

神经网络最初接收的是观测数据，每个观测数据由一定数量的n 个特征表示。到目前为止，我们已经在两个完全不同的领域中看到了两个这样的例子：第一个是房价数据集，其中每个观测值都由 13 个特征组成，每个特征都代表了该房屋的一个数字特征。第二个是手写数字的 MNIST 数据集；由于图像由 784 个像素（宽 28 像素，高 28 像素）表示，因此每个观测值由 784 个表示每个像素亮度或暗度的值表示。

在每种情况下，在对数据进行适当缩放后，我们都能建立一个模型，并准确预测出该数据集的适当结果。而且在每种情况下，有一个隐藏层的简单神经网络模型都比没有该隐藏层的模型表现更好。为什么会这样呢？其中一个原因，正如我在房价数据案例中所展示的，是神经网络可以学习输入和输出之间的非线性关系。不过，一个更普遍的原因是，在机器学习中，，我们往往需要原始特征的线性组合，才能有效预测目标。假设 MNIST 数字的像素值为_x1到_x784。例如，_x1高于平均值，_x139低于平均值，_x237也低于平均值，这样的组合可以有力地预测图像中的数字为 9。这样的组合可能还有很多，它们都会对图像是某一特定数字的概率产生积极或消极的影响。神经网络可以通过训练过程自动发现重要的原始特征组合。这一过程首先是通过随机权重矩阵乘以原始特征的初始随机组合；通过训练，神经网络学会完善有帮助的组合，并摒弃那些没有帮助的组合。这种学习哪些特征组合是重要的过程被称为表征学习，这也是神经网络在不同领域取得成功的主要原因。图 5-1 对此进行了总结。

在图像数据时，是否有理由对这一过程进行修改？答案是 "有 "的根本原因在于，在图像中，有趣的 "特征组合"（像素）往往来自图像中距离较近的像素。在图像中，由整个图像中随机选择的 9 个像素组合产生有趣特征的可能性要比由相邻像素组成的 3 × 3 补丁产生有趣特征的可能性小得多。我们希望利用图像数据的这一基本事实：特征的顺序很重要，因为它告诉我们哪些像素在空间上相互靠近，而在房价数据中，特征的顺序并不重要。但我们该怎么做呢？

图像数据的不同架构

高层次的解决方案是，像以前一样创建特征组合，但数量要多出一个数量级，而且每个特征组合都只是输入图像中一小块矩形区域像素的组合。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657755

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business