第3章 深度学习之卷积网络

前面的章节中,我们介绍了全连接网络,这种网络中的每一层都和它的相邻层全连接。我们应用全连接网络来对手写MNIST字符集进行分类。在那段上下文中,输入图像中的每个像素被分配一个神经元,总共有784(28×28像素)个输入神经元。然而,这样的策略并未提取出空间结构和图像关系信息。特别地,这段代码把每个位图表示的手写数字转换成扁平向量,导致空间局部性消失:

#X_train是60000行28×28的数据,变形为60000×784
X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)

卷积神经网络(Convolutional Neural Network,CNN,又称为ConvNet)保留了空间信息,也因此可以更好地适用于图像分类问题。受视觉皮质层上的生理学实验取得的生物学数据的启发,这些网络使用了ad hoc架构。如我们之前讨论的,我们的视觉基于多个皮质层,每层识别越来越多的结构性信息。首先,我们看到的是很多单个的像素;然后从这些像素中,我们识别出几何组成;再然后……这样越来越多的复杂的元素,如物体、面部、人类躯干、动物等被识别出来。

卷积神经网络是如此神奇,以至于在很短的时间里,它就成为了一种颠覆性的技术,打破了多个领域的最先进的技术成果。它除了最初设想的用作图像处理外,在文本、视频、语音等其他很多领域都有成功的应用。

本章,我们将涵盖以下内容:

  • 深度卷积神经网络
  • 图像分类

深度卷积神经网络(Deep Convolutional Neural Network,DCNN)由很多神经网络层组成。卷积层和池化层这两种不同的网络层,经常交互出现。每个滤波器的深度在网络中由左向右增加。最后一部分通常由一个或多个全连接层组成,如图3.1所示。 ...

Get Keras深度学习入门与实践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.