第10章 基于强化学习的电子游戏

与输入、输出一一对应的监督学习不同,强化学习是另一类最大化问题:在给定环境下,找出一个动作策略,以达到奖励最大化(动作会与环境互动,甚至会改变环境)。强化学习的目标不是一个明确而具体的结果,而是最大化最终得到的奖励。强化学习会通过反复试错来找到实现目标的方法。如幼童学步一般,强化学习会在实验环境中分析动作带来的反馈,然后找出实现最大奖励的方式。这也类似我们玩新游戏的情形:尝试寻求最优的获胜策略,在此之后尝试许多方法,然后决定我们在游戏中的动作。

迄今为止,没有一种强化学习算法能够在通用学习上与人类媲美。和强化学习相比,人类从多个输入中学习的速度更快,并且可以学习在多个非常复杂、多样、结构化、非结构化的环境中的举动。但是强化学习在一些特定问题上表现出了超出人类的学习能力。例如,在特定游戏中,若训练时间充足,强化学习能够给出令人惊叹的结果(比如AlphaGo——第一个在围棋这种需要长期策略与直觉的复杂游戏中打败了世界冠军的程序)。

本章将呈现一个富有挑战性的项目:让强化学习在雅达利游戏机的《登月着陆器》游戏中学习正确使用登月着陆器的指令。此游戏所含的指令较少,并可以根据少数几个数值描述游戏场景并完成游戏,以至于玩家不用看屏幕上的图像就能理解需要做什么。事实上,此游戏第一版诞生于20世纪60年代,而且是纯文本的。

神经网络和强化学习的结合可以追溯到20世纪90年代初。IBM公司的研究员Gerry Tesauro 结合前馈网络与时间差分学习(一种蒙特卡罗法与动态规划结合的算法)编写了著名的TD-Gammon,用于自学西洋双陆棋游戏。西洋双陆棋是一款靠掷骰子决定行棋步数的双人游戏。当时TD-Gammon在西洋双陆棋上之所以有较好的表现,是因为西洋双陆棋是一个基于掷骰子的非确定性游戏,但是TD-Gammon无法在更具确定性的游戏中获得较好的结果。近些年来,得益于谷歌公司深度学习研究者的工作,神经网络已能够帮助解决西洋双陆棋以外的问题,并且可以在任何人的计算机上运行。近几年,强化学习被列于深度学习和机器学习的热点榜单之首。 ...

Get TensorFlow深度学习项目实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.