
204
|
第
9
章
9.1
基本概念
本节简要概述了强化学习中的基本概念,包括以下几种。
环境
环境
定义了当前的问题,可以是要玩的计算机游戏或要进行交易的金融市场。
状态
状态
包含描述环境当前状态的所有相关参数。在计算机游戏中,这可能是整个屏幕及其
像素。在金融市场中,这可能包括当前和历史价格水平或金融指标,比如移动平均线、
宏观经济变量等。
智能体
智能体
这个词包含了与环境交互并从这些交互中学习的强化学习算法的所有元素。在游
戏环境中,智能体可能代表玩游戏的玩家。在金融环境中,智能体可以代表在市场中进
行交易的交易者。
动作
智能体可以从一组(有限的)被允许的动作中选择一个
动作
。在计算机游戏中,被允许
的动作可能是向左或向右移动,而在金融市场中,被允许的动作可能是做多或做空。
步骤
给定智能体的动作,环境状态会被更新,这样的更新通常被称为一个
步骤
。步骤的概念
可以包含两个步骤之间的相同或者不同的时间间隔。虽然在计算机游戏中,与游戏环境
的实时交互是通过相当短且相同的时间间隔(“游戏时钟”)来模拟的,但诸如与金融市
场环境交互的交易机器人则可以在更长且不同的时间间隔内采取动作。
奖励
根据智能体选择的动作,对其实行
奖励
(或惩罚)。对于计算机游戏,积分是一种典型
的奖励。在金融环境中,利润(或亏损)是一种标准的奖励(或惩罚)。
目标
目标
是指智能体试图最大化的内容。在计算机游戏中,这通常是智能体达到的分数。对
于金融交易机器人,这可能是累积的交易利润。
策略
策略
定义了智能体在给定环境状态下所采取的动作。给定计算机游戏的特定状态(由构 ...