book

为深度学习编程 PyTorch

by Ian Pointer

July 2025

Intermediate to advanced

220 pages

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

当今世界的深度学习但究竟什么是 Deep Learning，我需要博士学位才能理解它吗？PyTorchTensorFlow 怎么样？本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
构建自定义深度学习机器图形处理器中央处理器/主板内存存储云中的深度学习谷歌实验室云提供商我应该使用哪个云提供商？使用 Jupyter Notebook从零开始安装 PyTorch下载 CUDAAnaconda最后是 PyTorch！(和 Jupyter Notebook）Tensors张量运算张量广播结论更多阅读
我们的分类问题传统挑战但首先是数据PyTorch 和数据加载器构建训练数据集构建验证和测试数据集最后，神经网络！激活函数创建网络损失函数优化训练在 GPU 上运行拼凑起来进行预测保存模型结论更多阅读
我们的第一个卷积模型卷积池化辍学CNN 架构的历史AlexNetInception/GoogLeNetVGGResNet其他架构可用！在 PyTorch 中使用预训练模型检查模型结构批处理规范您应该使用哪种模型？一站式购买模型：PyTorch Hub结论延伸阅读
使用 ResNet 进行迁移学习寻找学习率差异学习率数据扩充火炬视觉变换色彩空间和 Lambda 变换自定义变换类从小到大集合结论更多阅读
递归神经网络长短期记忆网络门控循环单元biLSTM嵌入火炬文本获取数据推文定义字段建立词汇表创建模型更新训练循环对推文进行分类数据扩充随机插入随机删除随机交换回译增强和火炬文本迁移学习？结论更多阅读
声音ESC-50 数据集获取数据集在 Jupyter 中播放音频探索 ESC-50SoX 和 LibROSAtorchaudio建立 ESC-50 数据集用于 ESC-50 的 CNN 模型这个频率就是我的宇宙梅尔频谱图新数据集一个野生 ResNet 出现了寻找学习率音频数据增强torchaudio变换SoX 效果链规格增强更多实验结论更多阅读
现在是凌晨 3 点，您的数据在做什么？张量板安装 TensorBoard向 TensorBoard 发送数据PyTorch 挂钩绘制平均值和标准偏差类激活映射火焰图安装 py-spy读取火焰图修复缓慢的转换调试 GPU 问题检查 GPU梯度检查点结论延伸阅读
模型服务构建 Flask 服务设置模型参数构建 Docker 容器本地存储与云存储日志和遥测在 Kubernetes 上部署在谷歌 Kubernetes 引擎上进行设置创建 k8s 集群扩展服务更新和清理TorchScript跟踪脚本编写TorchScript 的限制使用 libTorch获取 libTorch 和 Hello World导入 TorchScript 模型结论延伸阅读
数据增强：混合与平滑混淆标签平滑计算机，增强！超分辨率简介GAN 简介伪造者与批评者训练 GAN模式崩溃的危险ESRGAN图像检测的进一步探险物体检测更快的 R-CNN 和掩码 R-CNN对抗样本黑盒攻击抵御对抗性攻击远不止于此：变压器架构关注关注就是一切BERTFastBERTGPT-2使用 GPT-2 生成文本ULMFiT使用什么？结论进一步阅读

Content preview from 为深度学习编程 PyTorch

序言

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

当今世界的 Deep Learning

大家好，欢迎阅读本书！本书将通过Facebook 于 2017 年发布的开源库 PyTorch 向你介绍深度学习。除非你在过去几年里一直把头埋在土里，模仿鸵鸟的样子，否则你一定会注意到，如今神经网络无处不在。神经网络已经从人们了解后却无从下手的计算机科学冷门，变成了我们每天随身携带的手机，用来改善我们的照片或聆听我们的语音指令。我们的电子邮件软件会读取我们的电子邮件并根据上下文进行回复，我们的扬声器会为我们倾听，汽车会自动驾驶，计算机终于在围棋方面超越了人类。在专制国家，神经网络支持的哨兵可以从人群中识别人脸，并决定是否应该逮捕他们。

然而，尽管人们觉得这一切发生得太快，神经网络和 Deep Learning 的概念却可以追溯到很久以前。早在 1989 年，人们就证明了这种网络可以作为一种近似方式替代任何数学函数，这也是神经网络可以针对许多不同任务进行训练的思想基础、¹卷积神经网络在 90 年代末就被用于识别支票上的数字。神经网络一直以来都有坚实的基础，那为什么感觉就像在过去 10 年中发生了爆炸呢？

原因有很多，但最主要的还是图形处理器（GPU）性能的激增和价格的日益低廉。GPU 最初是为游戏而设计的，每秒需要执行数百万次矩阵运算，才能渲染您在游戏机或 PC 上玩的驾驶或射击游戏中的所有多边形，而这些运算是标准 CPU 无法优化的。Rajat Raina 等人在 2009 年发表的论文《使用图形处理器的大规模无监督深度学习》中指出，训练神经网络也是基于执行大量的矩阵运算，因此可以使用这些附加显卡来加快训练速度，并首次使更大规模、更深层次的神经网络架构变得可行。其他重要技术，如 Dropout（我们将在第 3 章中介绍），也是在过去十年中引入的，这些技术不仅能加快训练速度，还能使训练更具有通用性（这样网络就不会只学会识别训练数据，我们将在下一章中遇到一个称为过拟合的问题）。在过去几年中，各家公司将这种基于 GPU 的方法提升到了一个新的水平，谷歌创建了它所描述的 张量处理单元（TPU），这是一种为尽可能快地执行深度学习而定制的设备，甚至作为其 Google Cloud 生态系统的一部分向公众开放。

另一种记录深度学习过去十年进展的方式是通过 ImageNet 竞赛。ImageNet 是一个由超过 1400 万张图片组成的大型数据库，这些图片被人工标注为 2 万个类别，是用于机器学习的标注数据宝库。自2010年以来，每年一度的ImageNet大型视觉识别挑战赛都会针对数据库中的1000个类别子集对所有参赛者进行测试，直到2012年，应对挑战的错误率一直保持在25%左右。然而，就在那一年，一个深度卷积神经网络以 16% 的错误率赢得了比赛，大大超过了其他所有参赛者。在随后的几年里，误差率越来越低，到 2015 年，ResNet 架构取得了 3.6% 的成绩，超过了人类在 ImageNet 上的平均成绩（5%）。我们被超越了。