
课后练习题解答
|
639
仅是立即获得的奖励很重要。当然,这会对最优策略产生巨大影响:如果你看重未
来,你可能愿意为最终回报的前景承担很多当即的痛苦;如果你不看重未来,则只
会抓住你可以找到的任何可以立即获得的回报,从不对未来进行投资。
4. 要衡量强化学习智能体的性能,你可以简单地汇总它所获得的奖励。在模拟环境中,
你可以运行许多个回合,查看其平均获得的总奖励(可以查看最小值、最大值、标
准差等)。
5. 信用分配问题是这样的事实:当强化学习智能体收到奖励时,它没有直接的方法来
知道其先前的哪些行为促成了该奖励。这通常在动作和所得奖励之间存在较大延迟
时发生(例如,在 Atari 的
Pong
游戏中,从智能体击球到获胜之间可能有几十个时
间步长)。解决它的一种方法是在可能的情况下为智能体提供短期奖励。这通常需
要有关任务的先验知识。例如,如果我们想建立一个会下棋的智能体,不是仅仅在
赢得比赛时才给予奖励,我们可以在每次吃掉对手的一个棋子时给予奖励。
6. 智能体通常可以在其环境的同一区域中停留一段时间,因此在这段时间内,其所有
的经历都非常相似。这可能会在学习算法中引入一些偏差。它可能会针对此环境区
域调整其策略,但是一旦移出该区域,它的性能会不好。要解决此问题,你可以使
用重播存储。智能体不使用最近的学习经历,而将基于过去的经历的缓冲来学习
(也许这就是我们晚上做梦的原因:重播我们白天的经历并更好地学习?)。
7. 异策略 RL 算法学习最佳策略的值(即如果智能体采取最佳行动,则每个状态可以
预期的折扣奖励总和 ...