第 12 章 世界模式 世界模型
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
本章将介绍生成模型近年来最有趣的应用之一,即在所谓的世界模型中的应用。
导言
2018 年 3 月,大卫-哈(David Ha)和于尔根-施密德胡贝尔(Jürgen Schmidhuber)在 上发表了他们的 "世界模型 "论文。1该论文展示了如何通过在自己生成的梦境环境中进行实验,而不是在真实环境中进行实验,来训练一个可以学习如何执行特定任务的模型。这是一个很好的例子,说明了生成模型如何与强化学习等其他机器学习技术一起用于解决实际问题。
该架构的一个关键组成部分是一个生成模型,它可以根据当前状态和动作,构建下一个可能状态的概率分布。通过随机运动建立起对环境底层物理的理解后,该模型就能完全在自己的内部环境表征中,在新任务中从头开始训练自己。通过这种方法,该模型在测试的两项任务中都取得了世界最佳成绩。
在本章中,我们将详细探讨论文中的模型,尤其关注一项要求代理学习如何在虚拟赛道上以最快速度驾驶汽车的任务。虽然我们将使用二维计算机模拟作为我们的环境,但同样的技术也可以应用于现实世界中的场景,因为在真实环境中测试策略是昂贵或不可行的。
提示
在本章中,我们将参考GitHub 上公开提供的 "世界模型 "论文的优秀 TensorFlow 实现,我鼓励你克隆并亲自运行它!
在开始探索该模型之前,我们需要仔细了解一下强化学习的概念。
强化学习
强化学习 的定义如下:
强化学习(RL)是机器学习的一个领域,其目的是训练一个代理,使其在给定环境中针对特定目标发挥最佳性能。
判别建模和生成建模的目的都是使观测数据集的损失函数最小化,而强化学习的目的则是使代理在给定环境中的长期回报最大化。强化学习通常与 监督学习(使用标注数据进行预测)和 无监督学习(从无标注数据中学习结构)并称为机器学习的三大分支。
让我们 首先介绍一些与强化学习相关的关键术语:
- 环境
-
代理运行的 世界。它定义了一系列规则,根据代理之前的行动和当前的游戏状态,管理游戏状态更新过程和奖励分配。例如,如果我们要教一个强化学习算法下棋,那么环境将包括管理给定行动(如走卒
e2e4)如何影响下一个博弈状态(棋盘上棋子的新位置)的规则,还将指定如何评估给定位置是否将死,并在获胜后为获胜棋手分配 1 的奖励。 - 代理
-
在环境中采取行动的实体。
- 游戏状态
-
表示代理可能遇到的特定情况(也称为状态)的数据。例如,一个特定的棋盘配置以及伴随的游戏信息,如哪位棋手将走下一步棋。
- 行动
-
代理人可以采取的可行行动。
- 奖励
-
在采取某项行动后,环境反馈给代理的 值。代理的目标是最大化其长期奖励总和。例如,在国际象棋游戏中,格杀对方国王的奖励是 1,而其他每一步的奖励都是 0。
- 插曲
-
代理在环境中的一次 运行;这也称为 "推出"。
- 时间进度
-
一个离散事件环境,所有状态、行动和奖励都用下标表示其在时间步的值 ...