第10章 强化学习

我们在第3章中介绍了机器学习的两种基本类型:监督学习和无监督学习。监督学习利用历史数据(观测值)训练模型,并根据新的数据输入预测结果;而在无监督学习中,模型尝试在数据集中提取模式,并定义逻辑分组边界以分隔解空间。除了这两种算法,还有第三种机器学习算法对人工智能的发展同等重要。

请回忆学习骑自行车的过程。我们观察一个骑自行车的人,建立一个如何骑自行车的心理模型,然后自己尝试骑自行车。在第一次尝试中,我们几乎不能保持自行车的平衡和前进。我们(行为者)在路上(环境)做第一次尝试(行为),可能会跌倒(奖励)。我们一遍又一遍地尝试着用不同的速度和不同的踏板策略保持左右两边的平衡,这样可能会前进更远的距离(更高的奖励),最终学会正确骑行(目标)。这一过程会重复多次,会根据环境条件及时强化正确的行为,以实现奖励的最大化。

上面的过程叫作强化学习。这是机器学习算法的第三个基本类型,我们将在本章中学习。本章主要介绍以下内容:强化学习算法的概念、Q-learning、SARSA学习以及深度强化学习。

下面我们创建一个简单的强化学习模型,同时介绍其中的术语,如图10-1所示。

图10-1 强化学习的模型

在时间(t)的各个步骤中,智能代理会:

(1)执行行为at

(2)接收观测ot

(3)接收奖励rt

在时间(t)的各个步骤中,环境会:

(1)接收行为at

(2)生成观测ot+1;

(3)生成标量的奖励rt+1。

环境是不确定的。(基于ot的行为 ...

Get 人工智能技术与大数据 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.