第 10 章 高级伽马网络
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
第 4 章介绍了生成对抗网络(GANs),这是一类生成模型,在各种图像生成任务中都取得了最先进的成果。模型架构和训练过程的灵活性促使学术界和 Deep Learning 从业人员寻找新的方法来设计和训练 GAN,从而产生了许多不同的高级架构,我们将在本章对其进行探讨。
导言
要详细解释 GAN 的所有发展及其反响,很容易就能写满另一本书。GitHub 上的GAN Zoo 存储库包含 500 多个不同的 GAN 示例和相关论文,范围从 ABC-GAN 到 ZipNet-GAN!
在本章中,我们将介绍在该领域具有影响力的主要 GAN,包括对每种 GAN 的模型架构和训练过程的详细解释。
我们将首先探讨英伟达公司的三个重要模型,它们推动了图像生成技术的发展:ProGAN、StyleGAN 和 StyleGAN2。我们将对每种模型进行详细分析,以了解支撑这些架构的基本概念,并了解它们各自是如何在早期论文的基础上发展起来的。
我们还将探索另外两种包含注意力的重要 GAN 架构:自我注意力 GAN(SAGAN)和 BigGAN,后者基于 SAGAN 论文中的许多想法。我们已经在第 9 章的 Transformers 中看到了注意力机制的威力。
最后,我们将介绍 VQ-GAN 和 ViT VQ-GAN,它们融合了变异自动编码器、变形器和 GAN 的思想。VQ-GAN 是谷歌最先进的文本到图像生成模型 Muse 的关键组成部分。1我们将在第 13 章详细探讨所谓的多模态模型。
训练自己的模型
为了简洁起见,我选择不在本书的代码库中包含直接构建这些模型的代码,而是尽可能指向公开可用的实现,这样你就可以根据自己的需要训练自己的版本。
ProGAN
ProGAN 是英伟达实验室于 2017 年开发的一种技术 2以提高 GAN 训练的速度和稳定性。ProGAN 论文建议,不要立即在全分辨率图像上训练 GAN,而是先在低分辨率图像(例如 4 × 4 像素)上训练生成器和判别器,然后在整个训练过程中逐步增加层以提高分辨率。
让我们来详细了解一下渐进式训练的概念。
培训自己的 ProGAN
Paperspace 博客上有 Bharath K 撰写的关于使用 Keras 训练自己的 ProGAN 的精彩教程。请注意,训练 ProGAN 以实现论文中的结果需要大量的计算能力。
渐进式培训
GANs 的一贯做法是,我们建立两个独立的网络,即生成器和判别器,并在训练过程中争夺主导权。 ...