
199
第 9 章
行人检测:创建应用程序
如果你问人们人的哪种感觉对日常生活影响最大,许多人一定会回答“视觉”。
注 16
视觉是一种非常有用的感觉。它使无数自然生物能够在环境中穿行、寻找食物来源,避
免陷入危险。作为人类,视觉帮助我们识别我们的朋友、解释符号信息,使我们不必依
靠近距离接触也能了解我们周围的世界。
直到不久之前,机器还没有视觉。大多数机器人只是在有限的范围内使用触摸和近距离
传感器进行探测,从一系列碰撞中收集有关结构的信息。人类不需要与物体本身有任何
的交互,只需看一眼就可以描述一个对象的形状、属性和用途。但是机器人没有这样的
能力。对于机器人来说,视觉信息过于混乱,没有结构,而且难以理解。
随着卷积神经网络(Convolutional Neural Network,CNN)的发展,创建可以“看见”
(see)的程序变得越来越容易。受到哺乳动物视觉皮层结构的启发,CNN 可以学习理解
我们的视觉世界,将极其复杂的输入过滤到已知模型和形状的映射表中。这些碎片信息
的精确组合可以告诉我们,给定的数字图像中存在哪些物体。
如今,视觉模型已经被用于许多不同的任务。自动驾驶汽车使用视觉来识别道路上的危险。
工厂机器人使用相机找出有缺陷的零件。研究人员训练出的病例学模型可以根据医学图像
诊断疾病。还有,你的智能手机很可能可以在照片中发现人脸,以确保它们能完美对焦。
有视力的机器可以帮助我们改造房屋和城市,使以前难以自动化的杂务自动化。但是视
觉是一种亲密的感觉。我们大多数人都不喜欢有摄像头记录自己的行动,或者自己的生 ...