第7章. 强化 学习Transformer
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
强化学习(RL) 是一种基于通过环境反馈进行序列决策的范式。仔细想想,通过交互进行学习并不是一个新概念。事实上,你一生中都熟悉强化学习的基本原理。这是因为你经常通过与周围环境的交互来学习,而无需明确的老师。 例如,孩提时代,你可能曾触摸物品或将物体放入口中,以此观察环境的反应。根据结果——比如被家里的猫抓伤后哭泣——你学会了接下来该怎么做。通过这些经历,你形成了未来行动的“策略”,比如不再去拽猫的尾巴。
这一学习过程与强化学习(RL)代理的运作方式如出一辙。因此,本章将利用你对从环境中学习的天然理解,并在此基础上探讨强化学习的关键概念。具体而言,我将提供传统强化学习算法的入门概述,包括在线学习与离线学习的区别、基于模型与无模型的方法,以及在策略(on-policy)与离策略(off-policy)强化学习。
在掌握了这些基础概念后,你将探索强化学习变换器(RL transformers)中的最新架构,例如决策变换器(decision transformer)、在线决策变换器(online decision transformer)以及基于高效随机变换器的世界模型。
强化学习入门
通常,与环境的交互被框定在马尔可夫决策过程(MDPs)中 MDPs 是一种数学框架,用于建模在结果部分随机、部分受决策者控制的环境中的决策过程,其特征包括状态、动作、转移概率和奖励。其工作原理如下:一个智能体选择一个动作 ,基于当前状态 的环境状态。随后,该智能体将以奖励的形式获得反馈 。根据这一反馈,智能体将其状态更新为新状态 。图7-1说明了这种交互关系。
图 7-1. 展示智能体如何与环境交互的流程图 。
从数学上讲,这可以表示为:
马尔可夫过程
若未来状态仅取决于当前状态和动作,而不取决于之前的事件序列,则该过程为马尔可夫过程 。这一性质被称为马尔可夫性质。
该策略 将每个状态 和动作 到概率 采取行动 当行为主体处于某种状态时 。策略是一条规则,通过指定在给定状态下选择特定动作的概率来指导智能体。本质上,它是智能体根据当前状况决定其动作所采用的策略。
大多数强化学习算法都基于价值函数原理运行。这些函数用于评估代理处于某种状态,或在该状态下执行某种动作所能获得的潜在收益。通过使用价值函数,代理可以量化预期的未来奖励,或者更准确地说,是预期回报。当然,代理可能获得的未来奖励取决于其选择采取的动作。因此,价值函数的计算总是与代理遵循的具体策略紧密相关。
从技术角度而言,我们有两个价值函数: (在某策略下的状态值) 以及 (在特定状态下执行某动作的策略价值)。前者称为价值函数,后者称为动作价值函数。策略、状态与动作之间的这些 交互是智能体学习过程的基础。
价值函数是其贝尔曼方程的唯一解
价值函数具有一个关键特征:它们遵循特定的递归关系。贝尔曼方程通过将策略的价值函数定义为预期未来奖励来阐明这一点。本质上,它将当前状态的价值与可能的未来状态的价值联系起来,几乎就像是从一个状态窥视到下一个状态一样。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access