book

为深度学习编程 PyTorch

by Ian Pointer

July 2025

Intermediate to advanced

220 pages

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

当今世界的深度学习但究竟什么是 Deep Learning，我需要博士学位才能理解它吗？PyTorchTensorFlow 怎么样？本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
构建自定义深度学习机器图形处理器中央处理器/主板内存存储云中的深度学习谷歌实验室云提供商我应该使用哪个云提供商？使用 Jupyter Notebook从零开始安装 PyTorch下载 CUDAAnaconda最后是 PyTorch！(和 Jupyter Notebook）Tensors张量运算张量广播结论更多阅读
我们的分类问题传统挑战但首先是数据PyTorch 和数据加载器构建训练数据集构建验证和测试数据集最后，神经网络！激活函数创建网络损失函数优化训练在 GPU 上运行拼凑起来进行预测保存模型结论更多阅读
我们的第一个卷积模型卷积池化辍学CNN 架构的历史AlexNetInception/GoogLeNetVGGResNet其他架构可用！在 PyTorch 中使用预训练模型检查模型结构批处理规范您应该使用哪种模型？一站式购买模型：PyTorch Hub结论延伸阅读
使用 ResNet 进行迁移学习寻找学习率差异学习率数据扩充火炬视觉变换色彩空间和 Lambda 变换自定义变换类从小到大集合结论更多阅读
递归神经网络长短期记忆网络门控循环单元biLSTM嵌入火炬文本获取数据推文定义字段建立词汇表创建模型更新训练循环对推文进行分类数据扩充随机插入随机删除随机交换回译增强和火炬文本迁移学习？结论更多阅读
声音ESC-50 数据集获取数据集在 Jupyter 中播放音频探索 ESC-50SoX 和 LibROSAtorchaudio建立 ESC-50 数据集用于 ESC-50 的 CNN 模型这个频率就是我的宇宙梅尔频谱图新数据集一个野生 ResNet 出现了寻找学习率音频数据增强torchaudio变换SoX 效果链规格增强更多实验结论更多阅读
现在是凌晨 3 点，您的数据在做什么？张量板安装 TensorBoard向 TensorBoard 发送数据PyTorch 挂钩绘制平均值和标准偏差类激活映射火焰图安装 py-spy读取火焰图修复缓慢的转换调试 GPU 问题检查 GPU梯度检查点结论延伸阅读
模型服务构建 Flask 服务设置模型参数构建 Docker 容器本地存储与云存储日志和遥测在 Kubernetes 上部署在谷歌 Kubernetes 引擎上进行设置创建 k8s 集群扩展服务更新和清理TorchScript跟踪脚本编写TorchScript 的限制使用 libTorch获取 libTorch 和 Hello World导入 TorchScript 模型结论延伸阅读
数据增强：混合与平滑混淆标签平滑计算机，增强！超分辨率简介GAN 简介伪造者与批评者训练 GAN模式崩溃的危险ESRGAN图像检测的进一步探险物体检测更快的 R-CNN 和掩码 R-CNN对抗样本黑盒攻击抵御对抗性攻击远不止于此：变压器架构关注关注就是一切BERTFastBERTGPT-2使用 GPT-2 生成文本ULMFiT使用什么？结论进一步阅读

Content preview from 为深度学习编程 PyTorch

第 6 章声音之旅声音之旅

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

Deep Learning 最成功的应用之一就是我们每天随身携带的东西。无论是 Siri 还是 Google Now，为这两个系统和亚马逊的 Alexa 提供动力的引擎都是神经网络。在本章中，我们将了解 PyTorch 的torchaudio 库。你将学习如何使用它来构建一个管道，利用基于卷积的模型对音频数据进行分类。之后，我将向你推荐一种不同的方法，它可以让你使用在图像中学到的一些技巧，并在 ESC-50 音频数据集上获得很高的准确率。

但首先，让我们来看看声音本身。声音是什么？它通常是如何以数据形式表示的？这是否能为我们提供一些线索，让我们知道应该使用哪种类型的神经网络从数据中获得洞察力？

声音

声音是通过空气振动产生的。我们听到的所有声音都是高压和低压的组合，我们通常用波形来表示，如图 6-1 所示。在这幅图中，原点上方的波为高压，下方的部分为低压。

图 6-2显示了一首完整歌曲更为复杂的波形。

在数字音频中，我们每秒对波形进行多次采样，传统上 CD 音质的采样次数为 44100 次，并存储每个采样点的波幅值。在时间t 上，我们存储的是单个值。这与图像略有不同，图像需要x和y 两个值来存储一个值（灰度图像）。如果我们在神经网络中使用卷积滤波器，我们需要的是一维滤波器，而不是之前用于图像的二维滤波器。

现在你对声音有了更多了解，让我们来看看我们使用的数据集，以便你能对它更熟悉一些。

ESC-50 数据集

环境声音分类(ESC) 数据集是一组现场录音，每段录音时长 5 秒，并被归入 50 个类别之一（例如，狗叫声、打鼾声、敲门声）。在本章的其余部分，我们将使用该数据集尝试两种音频分类方法，并探索使用torchaudio 来简化音频的加载和操作。

获取数据集

ESC-50 数据集是一组 WAV 文件。您可以通过克隆 Git 仓库下载：

git clone https://github.com/karoldvl/ESC-50

或者使用 curl 下载整个版本库：

curl https://github.com/karoldvl/ESC-50/archive/master.zip

所有 WAV 文件都存储在音频目录中，文件名如下：

1-100032-A-0.wav

我们关心文件名中的最后一个数字，因为它告诉我们这个声音片段被分配到了哪个类别。文件名的其他部分对我们来说并不重要，但大多与更大的 Freesound 数据集有关，ESC-50 就是从该数据集中提取的（但有一个例外，我很快就会提到）。如果您有兴趣了解更多信息，ESC-50 软件仓库中的README文档会提供更多细节。

现在我们已经下载了数据集，让我们来看看其中包含的一些声音。

在 Jupyter 中播放音频

如果你想真正听到来自 ESC-50 的声音，那么你可以使用 Jupyter 内置的音频播放器 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341662902Supplemental Content

为深度学习编程 PyTorch

by Ian Pointer

第 6 章声音之旅声音之旅

声音

图 6-1. 正弦波

图 6-2. 歌曲波形

ESC-50 数据集

获取数据集

在 Jupyter 中播放音频

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

产品路线图全面升级

流畅的Python（第2版）

Javaクックブック第5版

超越Vibe编程

Publisher Resources

第 6 章 声音之旅 声音之旅

声音

图 6-1. 正弦波

图 6-2. 歌曲波形

ESC-50 数据集

获取数据集

在 Jupyter 中播放音频

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

产品路线图全面升级

流畅的Python（第2版）

Javaクックブック第5版

超越Vibe编程

Publisher Resources

第 6 章声音之旅声音之旅

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.