
强化学习
|
227
plt.plot(agent.performances[:], label='training')
plt.plot(agent.vperformances[:], label='validation')
plt.plot(x, y, 'r--', label='regression (train)')
plt.plot(x, y_, 'r-.', label='regression (valid)')
plt.xlabel('episodes')
plt.ylabel('gross performance')
plt.legend();
回合
总收益
训练数据集
验证数据集
回归线(训练集)
回归线(验证集)
图 9-5:
FQLAgent
的每回合的训练集性能和验证集性能
9.9
结论
本章讨论了人工智能中最成功的一个算法类——强化学习。第
2
章中讨论的大多数进展和
成功案例源于强化学习领域的改进。在这种情况下,神经网络并没有变得毫无用处。相反,
神经网络在逼近最优动作策略方面发挥着重要作用,通常以策略
Q
的形式存在,即给定某
种状态,为每个动作分配一个值。如果考虑即时奖励和延迟奖励,则值越高,动作越好。
当然,延迟奖励是与许多重要环境相关的信息。在游戏环境中,通常有多种操作可用,最
好选择能获得最高总奖励而不仅仅是最高即时奖励的操作,因为最终的总分是要最大化的
分数。在金融环境中也是如此,通常,交易和投资的适当目标是看长期表现,而不是可能
会增加破产风险的快速短期利润。
本章中的示例还表明强化学习方法相当灵活且通用,因为它同样可以应用于不同的设置 ...