
489
第 17 章
使用自动编码器和 GAN 的
表征学习和生成学习
自动编码器是一种人工神经网络,不需要任何监督(即无标记训练集)即可学习输入数
据的密集表征,称为潜在表征或编码。这些编码的维度通常比输入数据低得多,这使得
自动编码器可用于降低维度(见第 8 章),尤其是可用于可视化。自动编码器还充当特征
检测器,还可用于深度神经网络的无监督预训练(如我们在第 11 章中讨论的)。最后,
一些自动编码器是生成模型:它们能够随机生成看起来与训练数据非常相似的新数据。
例如,你可以在人脸图片上训练自动编码器,然后就可以生成新的人脸。但是生成的图
像通常是模糊的且并不完全真实。
相比之下,由生成式对抗网络(GAN)生成的人脸现在令人信服,很难相信他们所代表的
人不存在。你可以访问
https://thispersondoesnotexist.com/
来自己做出判断,该网站显示了
由最近的 GAN 架构
StyleGAN
生成的面孔(你也可以通过
https://thisrentaldoesnotexist.
com/
来查看一些 Airbnb 的卧室)。GAN 现在广泛用于超分辨率(提高图像的分辨率)、
着色、强大的图像编辑(例如,用逼真的背景替换照片)、将简单的草图变成逼真的图
像、预测视频中的下一帧、扩充数据集(以训练其他模型)、生成其他类型的数据(例如
文本、音频和时间序列)、识别其他模型中的弱点并加以增强,等等。
自动编码器和 GAN 都是非监督的,都学习密集表征,都可以用作生成模型,并且具有
许多相似的应用。但是它们的工作方式截然不同: ...