第8章 音频事件识别和分类

在前面章节的内容中,我们已经看到了一些将迁移学习应用于现实世界问题的非常有趣的案例研究。图像和文本数据是我们之前已经处理过的两种非结构化数据。我们已经证明了可以使用各种方法来应用迁移学习以获得更健壮的模型,以及处理训练数据很少之类的约束。在本章中,我们将处理音频事件的识别和分类这一现实世界问题。

为音频数据创建预训练深度学习模型是一个巨大的挑战,因为我们没有有效的预训练视觉模型[例如VGG或Inception(可用于图像数据)],或基于单词嵌入模型[例如Word2vec或GloVe(可用于文本数据)]的优势。而接下来的问题就是如何制定处理音频数据的策略。在本章中,我们将探索一些创新的方法,主要涉及以下几个方面:

  • 理解音频事件分类;
  • 阐述现实世界问题;
  • 音频事件的探索性分析;
  • 音频事件分类的特征工程和表示方法;
  • 使用迁移学习对音频事件进行分类;
  • 创建一个深度学习音频事件识别器。

在本章中,我们将看到一个对音频事件进行识别和分类的真实案例研究。音频特征工程、迁移学习、深度学习和面向对象编程等概念将被用于构建健壮的、自动的音频事件识别器来对音频进行分类。本章中的代码可以在异步社区网站获取。

到目前为止,你应该了解了分类或分组的基本任务。在这些任务中,我们拥有结构化或非结构化数据,这些数据通常用特定的组或类别进行标记或标注。自动分类的主要任务是建立一个模型,从而对于未来的数据点,我们可以根据多种数据属性或特性将每个数据点或记录分类到特定的类别中。

在前面的章节中,我们已经讨论了文本和图像分类,本章我们将讨论音频事件的分类。音频事件可以理解为一个事件或一个活动的发生,通常由音频信号捕获。通常来说,短音频片段用于表示音频事件,因为即使它们重复出现,声音通常也是相似的。然而有时可能会使用更长的音频片段来表示更复杂的音频事件。音频事件的例子可以是孩子们在操场上玩耍的声音、警报声、狗叫声等。事实上,谷歌公司已经建立了一个名为 ...

Get Python迁移学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.