第8章 游戏中的AI
前面的章节中,我们研究了监督学习技术,如回归和分类,以及无监督学习技术,如生成对抗网络、自动编码机和生成模型。在监督学习中,我们用预期的输入和输出训练网络,并期望它可以根据给定的新输入预测输出。无监督学习中,我们给网络展示了一些输入数据,并期望它可以学习数据的结构,因而可以预测到新的输入。
本章中,我们将学习强化学习,或更精确地说,深度强化学习,即将深度神经网络应用于强化学习。强化学习植根于行为主义心理学,本体接受训练,正确的行为将受到奖赏,而错误的行为则受到惩罚。就深度强化学习而言,网络给出一些输入,并基于是否给出了正确的输出被给予正的或负的奖赏。这样,在强化学习中,我们就有了稀疏的延时标签。经过多次迭代后,网络学习到如何产生正确的输出。
深度强化学习领域的先行者是一个英国的名叫DeepMind的小公司,它在2013年发布了一篇论文(更多信息请参考《Playing Atari with Deep Reinforcement Learning》,作者V. Mnih, arXiv:1312.5602, 2013.),其中描述了卷积神经网络可以通过屏幕像素显示以及得分增加时的奖励来学习玩Atari 2600视频游戏。相同的结构被用来学习7种不同的Atari 2600游戏,其中6种对应模型的表现都胜过了以前的所有方法,并在3种中胜过了人类的专家。
以前的每个网络学习单一的规则,和我们以前了解到的学习策略不同,深度学习看上去是一个综合的学习算法,它可以应用到多种环境中。它甚至可以说是通用人工智能的第一个台阶。DeepMind公司后来被谷歌收购,这个团队一直处于AI研究的前沿。
其后的一篇论文(更多信息请参考《HumanLevel Control through Deep ...
Get Keras深度学习入门与实践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.