第8章 目标检测——CIFAR-10示例

在介绍了卷积神经网络(CNN)背后的基础知识和直觉(动机)之后,本章将在物体检测方面最著名的数据集上进行演示。同样地,你将会看到CNN前面的一些层是如何提取关于物体的一些基本特征的,而最后的卷积层将会提取更多的语义级特征,这些特征都是从前面层的基本特征中构建而来的。

本章将包含以下两个主题。

  • 目标检测。
  • CIFAR-10图像目标检测——构建与训练模型。

维基百科指出:

“目标检测——计算机视觉领域的技术,旨在查找和识别位于图像或视频序列中的对象。尽管当平移或旋转物体时,物体的图像可能有不同的视点、不同的大小和尺度,但是人类都能够很容易地识别出图像中的多个物体。甚至当物体被部分遮挡时,人类都能够识别出这些物体。但这项任务对于计算机视觉系统来说仍然是一项挑战。几十年来,完成这项任务的很多方法都已经实现了。”

图像分析是深度学习中最突出的领域之一。图像易于生成和处理,它们也是机器学习中的正确数据类型:对于人类容易理解,但对于计算机很难。所以图像分析在深度神经网络历史中发挥了关键作用也是不足为奇的。

随着自动驾驶汽车、面部检测、智能视频监控和人口统计解决方案的兴起,迫切需要快速、准确的目标检测系统。这些系统不仅包括图像中的目标识别和分类,还可以通过在它们周围绘制适当的方框来定位每一个目标。这也使得目标检测比传统的计算机视觉前身——图像分类任务更加困难。

本章的重点是目标检测,即找到图像中有哪些物体。例如,如图8.1所示,一辆自动驾驶汽车需要检测道路上的其他汽车。目标检测有很多复杂的算法,它们通常需要庞大的数据集、非常深的卷积网络和很长的训练时间。

图8.1 目标检测的例子(图片来源:B. C. Russell, A. ...

Get 深度学习:核心原理与案例分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.