第5章 图像识别

视觉可能是人类最重要的感觉。人类依靠视觉来识别食物、逃离危险、识别朋友和家人,并在熟悉的环境中找到自己的路。事实上,读者要依靠视觉来阅读本书并识别书中的每一个文字和符号。然而,图像识别却一直是计算机科学中最困难的问题之一。教计算机如何通过编程来识别不同对象是一件非常困难的事情,因为很难向计算机解释什么特征会构成一个指定对象。然而,在深度学习中,神经网络会自己学习(正如在前面所看到的),也就是说,它会学习构成每个对象的特征,因此非常适合执行诸如图像识别这样的任务。

本章涵盖以下主题:人工模型和生物模型之间的相似性、CNN的直观认识与合理性、卷积层、池化层、dropout层以及深度学习中的卷积层。

人类的视觉是一个复杂且高度结构化的过程。视觉系统通过视网膜、丘脑、视觉皮层和下颞叶皮层来分层地理解现实。对视网膜的输入是一个二维矩阵的颜色强度,其通过视神经被发送到丘脑。丘脑接收来自所有感官(除嗅觉系统以外)的感觉信息,然后将从视网膜收集到的视觉信息转发到初级视觉皮层,即纹状体皮层(V1区域),后者会提取线条和运动方向等基本信息。接着,信息会移动到负责不同照明条件下颜色解释和颜色恒定性的V2区域,然后会移动到改善颜色和形状感知的V3和V4区域。最后,信息会进入下颞叶(Inferior Temporal,IT)皮层,来实现目标和人脸识别(实际上,IT区域还被进一步细分为3个子区域:后IT、中央IT和前IT)的目标。因此,很显然,大脑通过在不同层次上处理信息来处理视觉信息。然后,大脑似乎通过在不同层次上创建简单抽象现实表示来运行,随后把这些表示重新组合在一起(见由J DiCarlo、D Zoccolan和N Rust合著的How Does ...

Get Python深度学习从原理到应用 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.