第3章 图像的描述生成
描述生成是深度学习领域中最重要的应用之一,近年来得到了广泛的关注。图像的描述生成模型涉及视觉信息和自然语言处理的结合。
本章主要包括以下内容:
- 描述生成领域的新进展;
- 描述生成是如何工作的;
- 描述生成模型的实现。
3.1 什么是描述生成
描述生成是指用自然语言来描述图像。在以前的研究中,描述生成模型使用目标检测模型以及生成文本的模板。随着深度学习的发展,这些模型已经被卷积神经网络和循环神经网络(Recurrent Neural Network,RNN)的组合所取代。图3-1所示的是描述生成的一个例子。
(引自Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge)
图3-1
有一些数据集可以帮助我们训练图像的描述生成模型。
3.2 探索图像描述数据集
有一些数据集可用于图像的描述生成任务。这些数据集通常是通过向几个人展示一幅图像,并要求他们每个人写一个关于该图像的句子,然后汇总这些句子得到的。通过这种方法,对于同一幅图像,我们可以得到多个描述,而多个描述选项有助于实现更好的概括。难点在于对模型性能的排序,最好由人评估每一代模型的描述质量。就这项任务来说,自动评估是较为困难的。我们首先研究一下Flickr8
数据集。
下载数据集
Flickr8
是由Flickr收集的,虽然不允许用于商业用途,但是支持用户下载并自用
。图像描述可以从伊利诺伊大学 Zea Mays计算语言学中心的网站下载——需要分别下载文本和图像。你可通过填写图3-2所示的表格获得访问权限。 ...
Get TensorFlow深度学习项目实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.