第6章 图像识别和分类

在知识上的投资是回报率最高的投资。

——本杰明·富兰克林(Benjamin Franklin)

图像识别是计算机视觉中一个活跃的跨学科研究领域。图像或对象识别,顾名思义,指的是在图像或视频序列中识别对象的任务。在过去的几年中,该领域利用数学和计算机辅助建模,以及对象设计方面的进步,开发了一些手动标注的数据集来测试和评估图像识别系统。我们现在所称的传统技术直到最近才在图像识别领域占据主导地位,并不断对这项技术进行改进。2012年深度学习进入ImageNet竞赛,为计算机视觉和深度学习技术的快速提升和发展打开了闸门。

本章我们将从深度学习,尤其是迁移学习的角度,介绍图像识别和分类的概念。本章内容包含以下几个方面:

  • 使用深度学习进行图像分类;
  • 基准测试数据集;
  • 最先进的深度图像分类模型;
  • 图像分类和迁移学习用例。

本章开启了本书的第3部分。在本书的这一部分中,我们将覆盖前两部分中讨论的概念和技术的案例研究,通过用例展示现实世界的主题或研究领域,并帮助读者了解如何在不同的场景中使用迁移学习。本章内容中涉及的代码可以在异步社区网站获取。

卷积神经网络,即CNN是提升图像分类任务的深度学习革命的核心,它是一种专门用于处理图像数据的神经网络。快速回顾一下,CNN能够帮助我们通过共享权重结构来推断位移和空间不变的特性,可以说它是前馈网络的一种变体。我们已经在第3章和第5章中详细介绍了CNN的基本内容。在继续学习后面的内容之前,读者可以快速复习以便更好地理解本章内容。图6.1所示为一个典型的CNN实战流程。

图6.1

神经网络早在2011年就已经出现在图像分类竞赛中,使用GPU训练的网络开始赢得比赛。直到2012年,一个深度CNN在ImageNet图像分类任务上将之前的最好成绩提升至83%,CNN才第一次引起全世界的注意。比赛的结果非常令人惊讶,足以引起全球的关注,并且帮助传播使用深度学习解决问题的方法。 ...

Get Python迁移学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.