book

为深度学习编程 PyTorch

by Ian Pointer

July 2025

Intermediate to advanced

220 pages

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

当今世界的深度学习但究竟什么是 Deep Learning，我需要博士学位才能理解它吗？PyTorchTensorFlow 怎么样？本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
构建自定义深度学习机器图形处理器中央处理器/主板内存存储云中的深度学习谷歌实验室云提供商我应该使用哪个云提供商？使用 Jupyter Notebook从零开始安装 PyTorch下载 CUDAAnaconda最后是 PyTorch！(和 Jupyter Notebook）Tensors张量运算张量广播结论更多阅读
我们的分类问题传统挑战但首先是数据PyTorch 和数据加载器构建训练数据集构建验证和测试数据集最后，神经网络！激活函数创建网络损失函数优化训练在 GPU 上运行拼凑起来进行预测保存模型结论更多阅读
我们的第一个卷积模型卷积池化辍学CNN 架构的历史AlexNetInception/GoogLeNetVGGResNet其他架构可用！在 PyTorch 中使用预训练模型检查模型结构批处理规范您应该使用哪种模型？一站式购买模型：PyTorch Hub结论延伸阅读
使用 ResNet 进行迁移学习寻找学习率差异学习率数据扩充火炬视觉变换色彩空间和 Lambda 变换自定义变换类从小到大集合结论更多阅读
递归神经网络长短期记忆网络门控循环单元biLSTM嵌入火炬文本获取数据推文定义字段建立词汇表创建模型更新训练循环对推文进行分类数据扩充随机插入随机删除随机交换回译增强和火炬文本迁移学习？结论更多阅读
声音ESC-50 数据集获取数据集在 Jupyter 中播放音频探索 ESC-50SoX 和 LibROSAtorchaudio建立 ESC-50 数据集用于 ESC-50 的 CNN 模型这个频率就是我的宇宙梅尔频谱图新数据集一个野生 ResNet 出现了寻找学习率音频数据增强torchaudio变换SoX 效果链规格增强更多实验结论更多阅读
现在是凌晨 3 点，您的数据在做什么？张量板安装 TensorBoard向 TensorBoard 发送数据PyTorch 挂钩绘制平均值和标准偏差类激活映射火焰图安装 py-spy读取火焰图修复缓慢的转换调试 GPU 问题检查 GPU梯度检查点结论延伸阅读
模型服务构建 Flask 服务设置模型参数构建 Docker 容器本地存储与云存储日志和遥测在 Kubernetes 上部署在谷歌 Kubernetes 引擎上进行设置创建 k8s 集群扩展服务更新和清理TorchScript跟踪脚本编写TorchScript 的限制使用 libTorch获取 libTorch 和 Hello World导入 TorchScript 模型结论延伸阅读
数据增强：混合与平滑混淆标签平滑计算机，增强！超分辨率简介GAN 简介伪造者与批评者训练 GAN模式崩溃的危险ESRGAN图像检测的进一步探险物体检测更快的 R-CNN 和掩码 R-CNN对抗样本黑盒攻击抵御对抗性攻击远不止于此：变压器架构关注关注就是一切BERTFastBERTGPT-2使用 GPT-2 生成文本ULMFiT使用什么？结论进一步阅读

Content preview from 为深度学习编程 PyTorch

第 5 章文本分类文本分类

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

我们暂时抛开图像，将目光转向另一个领域，在这个领域中，深度学习已被证明是对传统技术的重大进步：自然语言处理（NLP）。谷歌翻译就是一个很好的例子。最初，处理翻译的代码多达 50 万行。基于 TensorFlow 的新系统大约只有 500 行，而且性能比旧方法更好。

最近，在将迁移学习（你在第 4 章中已经了解过）引入 NLP 问题方面也取得了突破性进展。Transformer 架构等新架构催生了 OpenAI 的 GPT-2 等网络，其中较大的变体所生成的文本质量几乎与人类无异（事实上，OpenAI 并未公布该模型的权重，因为担心它被恶意使用）。

本章旋风式地介绍了递归神经网络和嵌入。然后，我们将探讨torchtext 库，以及如何将其用于基于 LSTM 模型的文本处理。

递归神经网络 Network+

如果我们回顾一下迄今为止我们是如何使用基于 CNN 的架构的，就会发现它们总是在一个完整的时间快照上工作。但考虑一下这两个句子片段：

The cat sat on the mat.

She got up and impatiently climbed on the chair, meowing for food.

如果你把这两个句子一个接一个地输入 CNN，然后问：猫在哪里？你就会遇到问题，因为 Network+ 没有记忆的概念。在处理具有时间域的数据（如文本、语音、视频和时间序列数据）时，这一点非常重要。¹递归神经网络（RNN）通过隐藏状态赋予神经网络记忆，从而解决了这一问题。

RNN 看起来像什么？我最喜欢的解释是："想象一下神经网络与for 循环的交叉"。图 5-1显示了一个经典的 RNN 结构图。

我们在时间步长为t 时添加输入，得到隐藏输出状态ht，输出也会反馈到 RNN 中，用于下一个时间步长。如图 5-2 所示，我们可以展开这个网络，深入了解发生了什么。

这里有一组全连接层（共享参数）、一系列输入和输出。输入数据被送入 Network+，而序列中的下一个项目被预测为输出。从展开的视图中，我们可以看到 RNN 可以被看作是全连接层的流水线，连续的输入被输入到序列中的下一层（层与层之间通常会插入ReLU 等非线性因素）。当我们完成预测序列后，就必须通过 RNN 反向传播误差。由于这涉及到网络步骤的回溯，因此这一过程被称为时间反向传播。先计算整个序列的误差，然后如图 5-2 所示展开网络，计算每个时间步的梯度，并结合起来更新网络的共享参数。你可以把它想象成在单个网络上进行反推，然后将所有梯度相加。

这就是 RNN 背后的理论。但这种简单的结构也存在一些问题，我们需要讨论一下这些问题是如何被更新的架构所克服的。