book

机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

by Aurélien Géron

October 2020

Intermediate to advanced

693 pages

16h 26m

Chinese

China Machine Press

Read now

Unlock full access

Content preview from 机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

532

｜

第

章

当然，在一个好的动作之后，可能会跟随发生一些不好的动作，这些动作会导致杆子快

速倾斜，导致这个好动作获得了较低的回报（类似地，一个好的演员有时可能出演了烂

电影）。但是，如果我们有足够多的时间玩游戏，则平均而言，好的动作会比坏的动作

获得更高的回报。我们想要估计一个动作与其他可能动作相比平均好或者坏多少。这就

是所谓的动作优势。为此，我们必须运行许多回合并归一化所有动作的回报（通过减去

均值并除以标准差）。我们可以合理地假设，具有负优势的动作是不好的，而具有正优

势的动作是好的。太好了！现在，我们已经有了评估每个动作的方法，我们已经准备好

使用策略梯度来训练第一个智能体。让我们看看如何来做。

18.6 策略梯度

如前所述，PG 算法通过跟随朝着更高回报的梯度来优化策略的参数。Ronald Williams

于 1992 年提出了一种流行的 PG 算法类别

注 11

，称为 REINFORCE 算法。以下是一个常

见的变体：

1.　首先，让神经网络策略多次参与游戏，然后在每个步骤中计算梯度，使所选择的动

作更有可能发生

—

但不要使用这些梯度。

2.　一旦运行了几个回合，就可以计算每个动作的优势（使用 18.5 节中介绍的方法）。

3.　如果某个动作的优势为正，则表示该动作可能很好，并且你希望应用较早计算出的

梯度来使该动作将来更有可能被选择。但是，如果该动作的优点是负面的，则表示

该动作可能是不好的，你希望应用相反的梯度以使该动作在将来被选择的可能性较

小。解决方法是简单地把每个梯度向量乘以相应动作的优势。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

算法技术手册（原书第2 版）

George T.Heineman, Gary Pollice, Stanley Selkow

Go语言编程

威廉·肯尼迪

数据库系统内幕

Alex Petrov

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977