book

生成式深度学习，第二版

by David Foster

May 2025

Intermediate to advanced

456 pages

5h 50m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

目标和方法先决条件路线图第二版的变化其他资源本书使用的约定代码库使用代码示例O'Reilly 在线学习如何联系我们致谢
什么是生成模型？生成式建模与判别式建模生成式建模的兴起生成模型和人工智能我们的第一个生成模型世界你好生成式建模框架表征学习核心概率论生成模型分类法生成式深度学习代码库克隆存储库使用 Docker在 GPU 上运行摘要
深度学习数据深度神经网络什么是神经网络？学习高级功能TensorFlow 和 Keras多层感知器（MLP）准备数据建立模型编译模型训练模型评估模型卷积神经网络（CNN）卷积层批量标准化辍学建立 CNN培训和评估 CNN摘要
导言自动编码器时尚-MNIST 数据集自动编码器架构编码器解码器连接编码器和解码器重建图像潜空间可视化生成新图像变异自动编码器编码器损失函数训练变异自动编码器变异自动编码器分析探索潜空间CelebA 数据集训练变异自动编码器变异自动编码器分析创造新面孔潜空间运算脸部变形摘要
导言深度卷积广义运算（DCGAN）砖块数据集歧视者发电机培训 DCGAN对 DCGAN 的分析GAN 培训：技巧和窍门带梯度惩罚的 Wasserstein GAN（WGAN-GP）瓦瑟施泰因损失Lipschitz 约束执行 Lipschitz 约束梯度惩罚损失培训 WGAN-GP对 WGAN-GP 的分析有条件广域网（CGAN）CGAN 架构培训 CGAN分析 CGAN摘要
导言长短期记忆网络（LSTM）食谱数据集处理文本数据令牌化创建训练集LSTM 架构嵌入层LSTM 层LSTM 单元训练 LSTMLSTM 分析递归神经网络（RNN）扩展堆叠递归网络分门别类的经常性单位双向单元PixelCNN屏蔽卷积层残块训练 PixelCNN对 PixelCNN 的分析混合物分布摘要
导言流量正常化变量变化雅各布行列式变量变化方程RealNVP双月数据集耦合层训练 RealNVP 模型RealNVP 模型分析其他归一化流量模型发光FFJORD摘要

导言基于能量的模型MNIST 数据集能量功能利用郎之万动力学进行采样对比发散训练基于能量的模型分析其他能源模型摘要
导言去噪扩散模型（DDM）花朵数据集前向扩散过程重参数化技巧扩散时间表反向扩散过程U-Net 去噪模型训练扩散模型从去噪扩散模型中取样扩散模型分析摘要
导言GPT葡萄酒评论数据集请注意查询、键和值多头关注因果掩蔽变压器模块位置编码培训 GPTGPT 分析其他变形金刚T5GPT-3 和 GPT-4ChatGPT摘要
导言ProGAN渐进式培训输出StyleGAN测绘网络合成网络StyleGAN 的输出StyleGAN2权重调制和解调路径长度正则化没有渐进式增长来自 StyleGAN2 的输出其他重要的全球网络自我关注网络（SAGAN）BigGANVQ-GANViT VQ-GAN摘要
导言音乐世代的变形金刚巴赫大提琴组曲数据集解析 MIDI 文件令牌化创建训练集正弦位置编码多个输入和输出音乐发生变压器分析复调音乐的标记化MuseGAN巴赫合唱曲数据集MuseGAN 生成器MuseGAN 评论家对 MuseGAN 的分析摘要
导言强化学习赛车环境世界模式概览建筑学培训收集随机推广数据培训自愿专家虚拟学院架构探索虚拟学院收集数据以训练 MDN-RNN训练 MDN-RNNMDN-RNN 架构从 MDN-RNN 取样培训控制员控制器架构CMA-ES并行化 CMA-ES梦中培训摘要
导言DALL.E 2建筑学文本编码器剪辑优先权解码器来自 DALL.E 2 的示例图片建筑学绘图台Imagen 的例子稳定扩散建筑学稳定扩散实例火烈鸟建筑学视觉编码器接收器重采样器语言模式弗拉明戈的例子摘要
生成式人工智能年表2014-2017:VAE 和 GAN 时代2018-2019：变形金刚时代2020-2022：大模型时代生成式人工智能的现状大型语言模型文本到代码模型文本到图像模型其他应用生成式人工智能的未来日常生活中的生成式人工智能工作场所中的生成式人工智能生成式人工智能在教育中的应用生成式人工智能伦理与挑战最终想法

Content preview from 生成式深度学习，第二版

第 12 章世界模式世界模型

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

本章将介绍生成模型近年来最有趣的应用之一，即在所谓的世界模型中的应用。

导言

2018 年 3 月，大卫-哈（David Ha）和于尔根-施密德胡贝尔（Jürgen Schmidhuber）在上发表了他们的 "世界模型 "论文。¹该论文展示了如何通过在自己生成的梦境环境中进行实验，而不是在真实环境中进行实验，来训练一个可以学习如何执行特定任务的模型。这是一个很好的例子，说明了生成模型如何与强化学习等其他机器学习技术一起用于解决实际问题。

该架构的一个关键组成部分是一个生成模型，它可以根据当前状态和动作，构建下一个可能状态的概率分布。通过随机运动建立起对环境底层物理的理解后，该模型就能完全在自己的内部环境表征中，在新任务中从头开始训练自己。通过这种方法，该模型在测试的两项任务中都取得了世界最佳成绩。

在本章中，我们将详细探讨论文中的模型，尤其关注一项要求代理学习如何在虚拟赛道上以最快速度驾驶汽车的任务。虽然我们将使用二维计算机模拟作为我们的环境，但同样的技术也可以应用于现实世界中的场景，因为在真实环境中测试策略是昂贵或不可行的。

提示

在本章中，我们将参考GitHub 上公开提供的 "世界模型 "论文的优秀 TensorFlow 实现，我鼓励你克隆并亲自运行它！

在开始探索该模型之前，我们需要仔细了解一下强化学习的概念。

强化学习

强化学习的定义如下：

强化学习（RL）是机器学习的一个领域，其目的是训练一个代理，使其在给定环境中针对特定目标发挥最佳性能。

判别建模和生成建模的目的都是使观测数据集的损失函数最小化，而强化学习的目的则是使代理在给定环境中的长期回报最大化。强化学习通常与 监督学习（使用标注数据进行预测）和 无监督学习（从无标注数据中学习结构）并称为机器学习的三大分支。

让我们首先介绍一些与强化学习相关的关键术语：

环境: 代理运行的世界。它定义了一系列规则，根据代理之前的行动和当前的游戏状态，管理游戏状态更新过程和奖励分配。例如，如果我们要教一个强化学习算法下棋，那么环境将包括管理给定行动（如走卒e2e4 ）如何影响下一个博弈状态（棋盘上棋子的新位置）的规则，还将指定如何评估给定位置是否将死，并在获胜后为获胜棋手分配 1 的奖励。
代理: 在环境中采取行动的实体。
游戏状态: 表示代理可能遇到的特定情况（也称为状态）的数据。例如，一个特定的棋盘配置以及伴随的游戏信息，如哪位棋手将走下一步棋。
行动: 代理人可以采取的可行行动。
奖励: 在采取某项行动后，环境反馈给代理的值。代理的目标是最大化其长期奖励总和。例如，在国际象棋游戏中，格杀对方国王的奖励是 1，而其他每一步的奖励都是 0。
插曲: 代理在环境中的一次运行；这也称为 "推出"。
时间进度: 一个离散事件环境，所有状态、行动和奖励都用下标表示其在时间步的值 ...