Skip to Content
变形金刚权威指南 (Chinese Edition)
book

变形金刚权威指南 (Chinese Edition)

by Nicole Koenigstein
March 2026
Intermediate
372 pages
4h 53m
Chinese
O'Reilly Media, Inc.
Content preview from 变形金刚权威指南 (Chinese Edition)

第4章. 用于图像生成的Transformer

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

随着DALL·E、Imagen、Midjourney和Stable Diffusion等文本到图像(T2I)生成模型 的开发,一个逼真图像创作的全新时代已经开启。这些模型能够根据文本输入生成高度精细且符合上下文的图像和艺术作品,使艺术家、设计师,甚至非创意人士都能以前所未有的便捷方式将他们的想法变为现实。

这些模型的核心构建模块是扩散,这是一种物理学中的 过程,描述了分子如何从高浓度区域向低浓度区域移动。在图像生成领域,扩散模型利用这一原理,通过一系列迭代优化,将随机噪声逐步转化为连贯且细节丰富的图像。

这种基于扩散的方法已成为当前最先进(SOTA)模型的支柱,取代了生成对抗网络(GANs)等早期方法,1 此前曾主导图像生成领域。这一转变源于扩散模型已被证实能更有效地生成高质量且多样化的输出。值得注意的是,虽然最初的DALL·E 模型采用自回归架构,但DALL·E 2和DALL·E 3已转而采用基于扩散的方法。

鉴于当前学术界对扩散模型的浓厚兴趣,本章将重点探讨用于图像生成任务的扩散模型,例如首个扩散变换器(DiT)、PIXART-α、PixArt-Σ以及 DiffiT。此外,我还将重点介绍开源模型,以及如何利用它们高效生成图像,或使用您自己的图像数据对这些模型进行微调。

生成式图像模型导论

去噪 扩散概率模型(DDPMs)2 及基于分数的生成模型3 在图像生成领域取得了显著成功,其中卷积U-Nets4 已成为这些方法的事实上的骨干架构。然而,这些并非生成式图像建模中唯一的方法。另外两种关键方法是 GAN 和自回归模型,它们各有其独特的优势和挑战。下一节将重点介绍这些生成式建模技术的主要特征及其差异。

GAN通过博弈论框架运作,其中生成器与判别器这两个神经网络协同工作。生成器负责生成图像,而判别器则试图 区分真实图像与生成图像。随着训练的进行,生成器会不断优化其输出,直至判别器无法再分辨两者的差异。然而,由于存在模式坍缩等问题(即生成器产生的输出种类有限),GAN 的训练过程极其困难。

自回归模型(例如 初代 DALL·E 模型)以序列化方式生成图像,基于前一像素逐步预测每个像素或像素块。这类模型通常基于变压器架构,在建模数据依赖关系方面表现出色。然而,由于生成完整图像需要进行海量预测,其计算成本可能很高,尤其在处理高分辨率图像时。 此外,逐像素生成方法速度较慢,且在捕捉复杂图像的全局结构或连贯性方面可能存在困难。

扩散模型(Diffusion models) 是一种较新的方法,通过迭代去噪过程合成图像。这些模型从随机噪声开始,通过逆向扩散过程将其逐步优化为连贯的图像。与生成对抗网络(GANs)和自回归模型相比,扩散模型具有多项优势。由于不依赖对抗性训练,它们在训练过程中更为稳定,且能更全面地覆盖潜在空间。 此外,扩散模型更易于逆向处理,这使其在图像编辑等任务中更具灵活性。

扩散模型:那些“噪声”究竟是什么?

扩散模型在前向过程中会添加 噪声(通常为高斯噪声),并通过训练使其能够逆转这些干扰,从而有效地学习如何恢复原始数据。更具体地说,扩散概率模型是一种参数化马尔可夫链 ,它通过变分推断进行训练,以生成在经过有限步数后与数据高度匹配的样本。 该模型学习该链中的转换,以逆转扩散过程——在此过程中,噪声会沿着与采样相反的方向逐渐添加到数据中,直至原始信号(图像)完全被掩盖。下式展示了噪声如何逐渐添加到原始数据中: ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

技术主管的进阶之路 (Chinese Edition)

技术主管的进阶之路 (Chinese Edition)

Anemari Fiser

Publisher Resources

ISBN: 0642572364274