book

变形金刚权威指南 (Chinese Edition)

Name: 变形金刚权威指南 (Chinese Edition)
Author: Nicole Koenigstein
ISBN: 0642572364274

by Nicole Koenigstein

March 2026

Intermediate

372 pages

4h 53m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
本书内容简介本书不涉及的内容本书适合哪些读者本书结构本书采用的约定如何使用代码示例O’Reilly 在线学习联系我们致谢
1. 从第一性原理到最先进的Transformer模型
Transformer基础Tokenizer：Transformer中的文本表示令牌与位置嵌入注意力机制编码器和解码器部分Transformer 设计的改进：更长的上下文与注意力机制的变体更长的Windows与更优性能注意力机制的变体结论
2. 时间序列的Transformer
理解时间序列数据的复杂性自相关与偏自相关协整互相关平稳性趋势与季节性准备数据集不同应用领域的时序建模时间序列数据的分词Chronos：学习时间序列的语言对 Chronos 进行微调PatchTST：一条时间序列相当于64个单词利用IBM历史股价数据对PatchTST进行微调TimesFM：仅解码器的时序基础模型基于每小时能源消耗数据对TimesFM进行微调AnomalyBERT：用于自监督异常检测结论
3. 视觉任务中的Transformer
不同视觉任务概述视觉模型的嵌入与分词提升视觉任务鲁棒性与有效性的关键策略Swin Transformer V2使用 Swin Transformer V2 进行图像分类Segment Anything在自定义数据集上对 SAM 进行微调在图像和视频中分割任意内容使用概念prompt对视频和图像进行分割结论
4. 图像生成中的Transformer
生成式图像模型入门扩散模型：那些关于它的讨论究竟在说什么？扩散模型中的无分类器引导基于Transformer的可扩展扩散模型使用DiT生成图像PIXART-αPixArt-Σ使用PixArt-Σ生成图像用于图像生成的扩散视觉变换器基于扩散变压器的可解释特征结论
5. 视频生成中的Transformer
潜变分模型的隐性有效性LTX-Video：实时视频生成Latte：结构化细节，融入每一帧视频Tora：从轨迹到故事线，一帧一帧地构建结论
6. 从声音到令牌再回到声音：音频领域的Transformer
从波形到频谱图：理解音频数据的结构音频作为波形采样率与奈奎斯特定理振幅、位深度与量化频域与傅里叶变换声谱图与短时傅里叶变换梅尔频谱图与感知缩放相位、重建与语音编码器不同应用领域的音频建模音频领域的Transformer架构：从感知到基础智能语音变换器的崛起：Whisper的影响音频基础模型：统一理解、生成与对话Qwen2-Audio使用 Kimi-Audio 转录会议音频中的任意片段分割超越文本与语音：作为音乐作曲家的Transformer结论
7. 强化学习中的Transformer
强化学习入门强化学习的基础概念在线与离线强化学习基于模型与无模型的方法在线策略与离线策略强化学习时序差异学习强化学习中的世界模型强化学习中的Transformer决策变换器投入生产：在线决策变换器美好新世界：基于随机Transformer的世界模型TWISTER：基于Transformer的世界模型结合对比预测编码结论
8. 拥抱体验时代：用于规划、推理和编码的Transformer
从人类数据到生活体验学习推理：从预训练到强化学习DeepSeek-R1：强化推理能力Qwen3：融合动态控制的统一推理Qwen3-Coder：面向开放式编码的代理推理Kimi K2：大规模开放式代理智能Muon：面向代理时代的扩展优化基于 Kimi K2 的推理测试时推理解决能力的扩展：更智能，而非仅仅更大自适应分支蒙特卡洛树搜索（AB-MCTS）用于代码生成的 RethinkMCTS 框架用于代码生成的 S* 框架结论
9. 从脚本到思考：用于复杂任务的AI代理
自主性：当前有哪些可能性？设计智能体工作流多智能体架构代理式沟通：恰当的语境即为关键超越上下文：如何帮助智能体记忆代理内存类型全球化与终身学习人类因素：引导智能体的行动人机协同的常见模式使用编码代理解决 GitHub 问题结论

10. 更智能、更优秀、更快速、更强大：优化LLMs与AI代理
训练时智能：代理的强化学习超越手工设计的奖励：RULER 的工作原理实践中的训练：市场场景中的ART更聪明地推理，而非更费力：自适应计算资源分配Delta激励：保障效率开放式创新：社区驱动的强化学习框架检查点引擎：面向LLM策略更新的系统级优化结论
11. Transformer 模型的部署
开源与闭源的选择理解您所部署的架构部署仅解码器模型仅解码器模型的运行时工程仅解码器部署的安全考量使用编码模型构建应用程序评估生产环境中的LLM部署成本效益与硬件对比量化视觉语言模型中的测试时低秩自适应结论
12. 未来方向：从模型到智能系统
能力整合：SAM 3 代理代理系统扩展的科学结论
目录
关于作者

Content preview from 变形金刚权威指南 (Chinese Edition)

第5章. 用于视频生成的Transformer

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

这篇章节将带给你一段有趣的阅读体验，因为你迄今为止所学的大部分内容，如今都在最先进的文本到视频（T2V）和图像到视频（I2V）模型中得到了融合。你已经了解过 ViT 如何将图像重组为补丁（参见“视觉模型的嵌入与分词”），以及 DiT 如何将这一机制扩展为生成式扩散（参见“基于 Transformer 的可扩展扩散模型”）。事实上，许多 T2V 和 I2V 模型都是基于 DiT 构建的，通过添加时间维度，将潜在补丁在时间上进行堆叠。还记得《更长的上下文窗口与更优性能》中提到的旋转位置嵌入吗？在这里你也会再次见到它们。

既然你已经理解了 T2I 的工作原理，T2V 和 I2V 就不再是难以跨越的鸿沟，而是更自然的推广。你只需从生成单帧图像转变为生成连贯的序列。大多数 T2V 和 I2V 模型还能利用相同的核心骨干网络生成静态图像，甚至 3D 视图。绝大多数情况下，架构保持不变，只是维度增加了。

对我而言，这就是Transformer的优雅之处。一旦理解了其工作原理，你便会开始看到图像、视频、音频等各个领域如何浑然一体。这正是我选择撰写这本超越语言范畴的Transformer专著的原因：因为真正的洞见不在于像Deep Learning中的其他模型那样将每个领域单独处理，而在于认识到这种架构如何自然地扩展到不同领域。

因此，在本章中，我将带您进行一次探索之旅，从ViT到DiT再到T2I，最终抵达视频生成领域。在此过程中，您将理解每一项创新如何在前人基础上进一步发展，以及这些领域之间的联系远比表面看起来更为紧密。您将探索不同的最先进（SOTA）视频生成模型，并了解如何将其应用于您自己的项目和数据。您还将重新审视之前介绍过的模型，如PIXART- $α$ 等模型，获得全新的认知。因此，本章或许将成为您阅读本书的转折点，因为您最初开始学习的架构，即将真正地拓展出新的维度。

与前文一样，我将重点关注开源模型，您可以在本书的代码库中找到所有代码。例如，Sora和Stable Diffusion 3能够生成任意分辨率的样本，并展现出与标度定律高度一致的特性。标度律指出：，即随着数据量、参数数量及计算资源的增加，模型性能会以可预测的幂律方式提升。然而，这些模型对其设计选择的揭示有限，既未提供详细的实现指南，也未公开预训练检查点。这极大限制了它们在社区推广和复现中的实用价值。

潜变换的隐性效能

“”一词中的“latent”源自拉丁语“latēns”，意为“隐藏”或“隐蔽”。正是这种在潜空间中隐藏且压缩的表示形式，使得快速、高分辨率的视频生成成为可能。因为与直接在像素空间中运行的传统扩散模型不同，潜扩散模型将去噪过程转移到了潜空间中。这意味着，模型不再对原始图像或视频像素进行迭代去噪，而是对数据的低维、压缩表示形式进行扩散。因此得名：潜扩散。

这意味着你在第4章中学习的关于扩散的内容，包括噪声注入、去噪步骤和采样，现在不再发生在原始像素上，而是在潜空间中进行。因此，我们正从扩散模型转向潜扩散模型（LDMs）。¹ 对于图像而言，这可能意味着将一张 256 × 256 × 3 的图像转换为类似 32 × 32 × 4 的潜表示形式。其结果是维度大幅降低，从而使得扩展到更高分辨率和更长的视频序列成为可能。

但当我们从图像转向视频时，潜在表示便变成了时空的。也就是说，我们不再压缩静态帧，而是利用3D VAE将一序列帧（以3D张量表示）压缩为4D潜在表示。该模型不再仅仅学习空间模式，而是学习跨越时间的运动与动态。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572364274

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

变形金刚权威指南 (Chinese Edition)

by Nicole Koenigstein

第5章. 用于视频生成的Transformer

潜变换的隐性效能

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.