第5章. 用于视频生成的Transformer
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
这篇章节将带给你一段有趣的阅读体验,因为你迄今为止所学的大部分内容,如今都在最先进的文本到视频(T2V) 和图像到视频(I2V)模型 中得到了融合。 你已经了解过 ViT 如何将图像重组为补丁(参见“视觉模型的嵌入与分词”),以及 DiT 如何将这一机制扩展为生成式扩散(参见“基于 Transformer 的可扩展扩散模型”)。 事实上,许多 T2V 和 I2V 模型都是基于 DiT 构建的,通过添加时间维度,将潜在补丁在时间上进行堆叠。还记得《更长的上下文窗口与更优性能》中提到的旋转位置嵌入吗?在这里你也会再次见到它们。
既然你已经理解了 T2I 的工作原理,T2V 和 I2V 就不再是难以跨越的鸿沟,而是更自然的推广。你只需从生成单帧图像转变为生成连贯的序列。大多数 T2V 和 I2V 模型还能利用相同的核心骨干网络生成静态图像,甚至 3D 视图。绝大多数情况下,架构保持不变,只是维度增加了。
对我而言,这就是Transformer的优雅之处。一旦理解了其工作原理,你便会开始看到图像、视频、音频等各个领域如何浑然一体。这正是我选择撰写这本超越语言范畴的Transformer专著的原因:因为真正的洞见不在于像Deep Learning中的其他模型那样将每个领域单独处理,而在于认识到这种架构如何自然地扩展到不同领域。
因此,在本章中,我将带您进行一次探索之旅,从ViT到DiT再到T2I,最终抵达视频生成领域。在此过程中,您将理解每一项创新如何在前人基础上进一步发展,以及这些领域之间的联系远比表面看起来更为紧密。您将探索不同的最先进(SOTA)视频生成模型,并了解如何将其应用于您自己的项目和数据。您还将重新审视之前介绍过的模型,如PIXART- 等模型,获得全新的认知。因此,本章或许将成为您阅读本书的转折点,因为您最初开始学习的架构,即将真正地拓展出新的维度。
与前文一样,我将重点关注开源模型,您可以在本书的代码库中找到所有代码。例如,Sora和Stable Diffusion 3能够生成任意分辨率的样本,并展现出与标度定律高度一致的特性。标度律指出: ,即随着数据量、参数数量及计算资源的增加,模型性能会以可预测的幂律方式提升。然而,这些模型对其设计选择的揭示有限,既未提供详细的实现指南,也未公开预训练检查点。这极大限制了它们在社区推广和复现中的实用价值。
潜变换的隐性效能
“”一词中的“latent”源自拉丁语“latēns”,意为“隐藏”或“隐蔽”。 正是这种在潜空间中隐藏且压缩的表示形式,使得快速、高分辨率的视频生成成为可能。因为与直接在像素空间中运行的传统扩散模型不同,潜扩散模型将去噪过程转移到了潜空间中。这意味着,模型不再对原始图像或视频像素进行迭代去噪,而是对数据的低维、压缩表示形式进行扩散。因此得名:潜扩散。
这意味着你在第4章中学习的关于扩散的内容,包括噪声注入、去噪步骤和采样,现在不再发生在原始像素上,而是在潜空间中进行。因此,我们正从扩散模型转向潜扩散模型(LDMs) 。1 对于图像而言,这可能意味着将一张 256 × 256 × 3 的图像转换为类似 32 × 32 × 4 的潜表示形式。其结果是维度大幅降低,从而使得扩展到更高分辨率和更长的视频序列成为可能。
但当我们从图像转向视频时,潜在表示便变成了时空的。也就是说,我们不再压缩静态帧,而是利用3D VAE将一序列帧(以3D张量表示)压缩为4D潜在表示。该模型不再仅仅学习空间模式,而是学习跨越时间的运动与动态。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access