
532
|
第
18
章
当然,在一个好的动作之后,可能会跟随发生一些不好的动作,这些动作会导致杆子快
速倾斜,导致这个好动作获得了较低的回报(类似地,一个好的演员有时可能出演了烂
电影)。但是,如果我们有足够多的时间玩游戏,则平均而言,好的动作会比坏的动作
获得更高的回报。我们想要估计一个动作与其他可能动作相比平均好或者坏多少。这就
是所谓的动作优势。为此,我们必须运行许多回合并归一化所有动作的回报(通过减去
均值并除以标准差)。我们可以合理地假设,具有负优势的动作是不好的,而具有正优
势的动作是好的。太好了!现在,我们已经有了评估每个动作的方法,我们已经准备好
使用策略梯度来训练第一个智能体。让我们看看如何来做。
18.6 策略梯度
如前所述,PG 算法通过跟随朝着更高回报的梯度来优化策略的参数。Ronald Williams
于 1992 年提出了一种流行的 PG 算法类别
注 11
,称为 REINFORCE 算法。以下是一个常
见的变体:
1
1. 首先,让神经网络策略多次参与游戏,然后在每个步骤中计算梯度,使所选择的动
作更有可能发生
—
但不要使用这些梯度。
2. 一旦运行了几个回合,就可以计算每个动作的优势(使用 18.5 节中介绍的方法)。
3. 如果某个动作的优势为正,则表示该动作可能很好,并且你希望应用较早计算出的
梯度来使该动作将来更有可能被选择。但是,如果该动作的优点是负面的,则表示
该动作可能是不好的,你希望应用相反的梯度以使该动作在将来被选择的可能性较
小。解决方法是简单地把每个梯度向量乘以相应动作的优势。 ...