
108
第 8 章
自动特征生成:图像特征提取和
深度学习
影像和声音是人类固有的感官输入。我们的大脑天生适合快速发展处理视觉和听觉信号的
能力,有些系统甚至在出生之前就可以对刺激做出反应(
Eliot, 2000
)。另一方面,语言
能力则是靠学习得到的,它需要几个月来发展,而完全掌握则需要好几年。很多人的视
觉和听觉能力的发展都是自然而然的,但所有人都必须有意地训练自己的大脑来理解和
使用语言。
有趣的是,对于机器学习来说,情况则正好相反。我们在文本分析应用方面取得的进展要
远远多于图像和音频应用。以搜索问题为例,人们已经享受了多年在信息检索和文本搜索
方面的成果,而图像和音频搜索还在走向成熟的途中(然而在过去的
5
年中,深度学习模
型取得了突破性发展,这可能预示着在图像和语音分析领域会出现人们期待已久的革命性
成果)。
进展中的困难与从图像和音频数据中提取有意义特征的难度直接相关。机器学习模型需要
语义上有意义的特征来做出语义上有意义的预测。在文本分析中,尤其是在像英语这样语
义上有意义的基本单位(单词)很容易提取的语言中,进展可以非常快速。另一方面,图
像和声音是以数字像素或波形来记录的。图像中的单个“原子”是一个像素。在音频数据
中,基本单位是对波形密度的一次测量。这些单位包含的语义信息要比文本数据的基本单
位(单词)少。因此,与文本相比,图像和音频上的特征提取和特征工程要困难得多。