Skip to Content
机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
book

机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)

by Aurélien Géron
October 2020
Intermediate to advanced
693 pages
16h 26m
Chinese
China Machine Press
Content preview from 机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
课后练习题解答
639
仅是立即获得的奖励很重要。当然,这会对最优策略产生巨大影响:如果你看重未
来,你可能愿意为最终回报的前景承担很多当即的痛苦;如果你不看重未来,则只
会抓住你可以找到的任何可以立即获得的回报,从不对未来进行投资。
4. 要衡量强化学习智能体的性能,你可以简单地汇总它所获得的奖励。在模拟环境中,
你可以运行许多个回合,查看其平均获得的总奖励(可以查看最小值、最大值、标
准差等)。
5. 信用分配问题是这样的事实:当强化学习智能体收到奖励时,它没有直接的方法来
知道其先前的哪些行为促成了该奖励。这通常在动作和所得奖励之间存在较大延迟
时发生(例如,在 Atari
Pong
游戏中,从智能体击球到获胜之间可能有几十个时
间步长)。解决它的一种方法是在可能的情况下为智能体提供短期奖励。这通常需
要有关任务的先验知识。例如,如果我们想建立一个会下棋的智能体,不是仅仅在
赢得比赛时才给予奖励,我们可以在每次吃掉对手的一个棋子时给予奖励。
6. 智能体通常可以在其环境的同一区域中停留一段时间,因此在这段时间内,其所有
的经历都非常相似。这可能会在学习算法中引入一些偏差。它可能会针对此环境区
域调整其策略,但是一旦移出该区域,它的性能会不好。要解决此问题,你可以使
用重播存储。智能体不使用最近的学习经历,而将基于过去的经历的缓冲来学习
(也许这就是我们晚上做梦的原因:重播我们白天的经历并更好地学习?)。
7. 异策略 RL 算法学习最佳策略的值(即如果智能体采取最佳行动,则每个状态可以
预期的折扣奖励总和 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

算法技术手册(原书第2 版)

算法技术手册(原书第2 版)

George T.Heineman, Gary Pollice, Stanley Selkow
Go语言编程

Go语言编程

威廉·肯尼迪
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977