Skip to Content
生成式深度学习,第二版
book

生成式深度学习,第二版

by David Foster
May 2025
Intermediate to advanced
456 pages
5h 50m
Chinese
O'Reilly Media, Inc.
Book available
Content preview from 生成式深度学习,第二版

第 10 章 高级伽马网络

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

第 4 章介绍了生成对抗网络(GANs),这是一类生成模型,在各种图像生成任务中都取得了最先进的成果。模型架构和训练过程的灵活性促使学术界和 Deep Learning 从业人员寻找新的方法来设计和训练 GAN,从而产生了许多不同的高级架构,我们将在本章对其进行探讨。

导言

要详细解释 GAN 的所有发展及其反响,很容易就能写满另一本书。GitHub 上的GAN Zoo 存储库包含 500 多个不同的 GAN 示例和相关论文,范围从 ABC-GAN 到 ZipNet-GAN!

在本章中,我们将介绍在该领域具有影响力的主要 GAN,包括对每种 GAN 的模型架构和训练过程的详细解释。

我们将首先探讨英伟达公司的三个重要模型,它们推动了图像生成技术的发展:ProGAN、StyleGAN 和 StyleGAN2。我们将对每种模型进行详细分析,以了解支撑这些架构的基本概念,并了解它们各自是如何在早期论文的基础上发展起来的。

我们还将探索另外两种包含注意力的重要 GAN 架构:自我注意力 GAN(SAGAN)和 BigGAN,后者基于 SAGAN 论文中的许多想法。我们已经在第 9 章的 Transformers 中看到了注意力机制的威力。

最后,我们将介绍 VQ-GAN 和 ViT VQ-GAN,它们融合了变异自动编码器、变形器和 GAN 的思想。VQ-GAN 是谷歌最先进的文本到图像生成模型 Muse 的关键组成部分。1我们将在第 13 章详细探讨所谓的多模态模型。

训练自己的模型

为了简洁起见,我选择不在本书的代码库中包含直接构建这些模型的代码,而是尽可能指向公开可用的实现,这样你就可以根据自己的需要训练自己的版本。

ProGAN

ProGAN 是英伟达实验室于 2017 年开发的一种技术 2以提高 GAN 训练的速度和稳定性。ProGAN 论文建议,不要立即在全分辨率图像上训练 GAN,而是先在低分辨率图像(例如 4 × 4 像素)上训练生成器和判别器,然后在整个训练过程中逐步增加层以提高分辨率

让我们来详细了解一下渐进式训练的概念。

培训自己的 ProGAN

Paperspace 博客上有 Bharath K 撰写的关于使用 Keras 训练自己的 ProGAN 的精彩教程。请注意,训练 ProGAN 以实现论文中的结果需要大量的计算能力。

渐进式培训

GANs 的一贯做法是,我们建立两个独立的网络,即生成器和判别器,并在训练过程中争夺主导权。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

产品路线图全面升级

产品路线图全面升级

C. Todd Lombardo, Bruce McCarthy, Evan Ryan, Michael Connors
变压器在自然语言处理中的应用(修订版)

变压器在自然语言处理中的应用(修订版)

Lewis Tunstall, Leandro von Werra, Thomas Wolf

Publisher Resources

ISBN: 9798341656703Supplemental Content