book

为深度学习编程 PyTorch

by Ian Pointer

July 2025

Intermediate to advanced

220 pages

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

当今世界的深度学习但究竟什么是 Deep Learning，我需要博士学位才能理解它吗？PyTorchTensorFlow 怎么样？本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
构建自定义深度学习机器图形处理器中央处理器/主板内存存储云中的深度学习谷歌实验室云提供商我应该使用哪个云提供商？使用 Jupyter Notebook从零开始安装 PyTorch下载 CUDAAnaconda最后是 PyTorch！(和 Jupyter Notebook）Tensors张量运算张量广播结论更多阅读
我们的分类问题传统挑战但首先是数据PyTorch 和数据加载器构建训练数据集构建验证和测试数据集最后，神经网络！激活函数创建网络损失函数优化训练在 GPU 上运行拼凑起来进行预测保存模型结论更多阅读
我们的第一个卷积模型卷积池化辍学CNN 架构的历史AlexNetInception/GoogLeNetVGGResNet其他架构可用！在 PyTorch 中使用预训练模型检查模型结构批处理规范您应该使用哪种模型？一站式购买模型：PyTorch Hub结论延伸阅读
使用 ResNet 进行迁移学习寻找学习率差异学习率数据扩充火炬视觉变换色彩空间和 Lambda 变换自定义变换类从小到大集合结论更多阅读
递归神经网络长短期记忆网络门控循环单元biLSTM嵌入火炬文本获取数据推文定义字段建立词汇表创建模型更新训练循环对推文进行分类数据扩充随机插入随机删除随机交换回译增强和火炬文本迁移学习？结论更多阅读
声音ESC-50 数据集获取数据集在 Jupyter 中播放音频探索 ESC-50SoX 和 LibROSAtorchaudio建立 ESC-50 数据集用于 ESC-50 的 CNN 模型这个频率就是我的宇宙梅尔频谱图新数据集一个野生 ResNet 出现了寻找学习率音频数据增强torchaudio变换SoX 效果链规格增强更多实验结论更多阅读
现在是凌晨 3 点，您的数据在做什么？张量板安装 TensorBoard向 TensorBoard 发送数据PyTorch 挂钩绘制平均值和标准偏差类激活映射火焰图安装 py-spy读取火焰图修复缓慢的转换调试 GPU 问题检查 GPU梯度检查点结论延伸阅读
模型服务构建 Flask 服务设置模型参数构建 Docker 容器本地存储与云存储日志和遥测在 Kubernetes 上部署在谷歌 Kubernetes 引擎上进行设置创建 k8s 集群扩展服务更新和清理TorchScript跟踪脚本编写TorchScript 的限制使用 libTorch获取 libTorch 和 Hello World导入 TorchScript 模型结论延伸阅读
数据增强：混合与平滑混淆标签平滑计算机，增强！超分辨率简介GAN 简介伪造者与批评者训练 GAN模式崩溃的危险ESRGAN图像检测的进一步探险物体检测更快的 R-CNN 和掩码 R-CNN对抗样本黑盒攻击抵御对抗性攻击远不止于此：变压器架构关注关注就是一切BERTFastBERTGPT-2使用 GPT-2 生成文本ULMFiT使用什么？结论进一步阅读

Content preview from 为深度学习编程 PyTorch

第 9 章荒野中的 PyTorch 野生 PyTorch

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在最后一章，我们将看看其他人和公司是如何使用 PyTorch 的。你还会学到一些新技术，包括调整图片大小、生成文本以及创建可以骗过神经网络的图像。与之前的章节略有不同的是，我们将集中讨论如何使用现有的库来启动和运行，而不是从头开始学习 PyTorch。我希望这将成为进一步探索的跳板。

首先，让我们来看看从数据中获取最大收益的一些最新方法。

数据增强：混合与平滑

早在第 4 章中，我们就研究了增强数据的各种方法，以帮助减少模型在训练数据集上的过拟合。用更少的数据做更多事情的能力自然是 Deep Learning 研究的一个高活跃度领域，在本节中，我们将介绍两种日益流行的从数据中榨取最后一滴信号的方法。这两种方法也将改变我们计算损失函数的方式，因此这将是对我们刚刚创建的更灵活的训练循环的一次很好的测试。

混合

mixup是一种引人入胜的增强技术，它源于我们对模型功能的错误理解。我们对模型的通常理解是，我们向它发送一张如图 9-1所示的图像，并希望模型返回该图像是一只狐狸的结果。

但正如你所知道的，我们从模型中得到的不仅仅是这个结果；我们得到的是一个包含所有可能类别的张量，并且希望该张量中值最大的元素是狐狸类别。事实上，在理想情况下，我们会得到一个除了狐狸类中的 1 之外全部为 0 的张量。

但神经网络很难做到这一点！总是会存在不确定性，而我们的激活函数（如softmax ）很难让张量达到 1 或 0。mixup 利用了这一点，提出了一个问题：图 9-2 的类是什么？

在我们看来，这可能有点乱，但其中 60% 是猫，40% 是狐狸。如果我们不试图让我们的模型做出明确的猜测，而是让它针对两个类别呢？这将意味着我们的输出张量在训练中不会遇到接近但永远不会达到 1 的问题，而且我们可以改变每张混合图像的不同比例，从而提高模型的泛化能力。

但是，我们如何计算这种混合图像的损失函数呢？好吧，如果p是第一幅图像在混合图像中所占的百分比，那么我们就有了以下简单的线性组合：

p * loss(image1) + (1-p) * loss(image2)

它必须预测这些图像，对吗？而我们需要根据这些图像在最终混合图像中的比例进行缩放，因此这个新的损失函数似乎是合理的。要选择p，我们可以使用从正态分布或均匀分布中抽取的随机数，就像我们在许多其他情况下所做的那样。不过，混合论文的作者认为，从贝塔分布中抽取的样本在实践中效果更好。¹不知道贝塔分布是什么样的吗？在看到这篇论文之前，我也不知道！图 9-3给出了论文中描述的特征。