第7章 强化学习

本章将介绍强化学习。我们将介绍以下主题:

  • 建立马尔可夫决策过程;
  • 执行基于模型的学习;
  • 执行无模型的学习。

强化学习(Reinforcement Learning,RL)是一个受心理学启发的机器学习领域,如代理(软件程序)如何采取行动以最大化累积奖励。

强化学习是基于奖励的学习,奖励在学习结束或在学习期间分配。例如,在国际象棋中,奖励将分配给赢或输的一方,而在网球等比赛中,每赢一分都是奖励。强化学习的一些商业例子:来自Google的DeepMind使用了强化学习来掌握跑酷(Parkour);同样,特斯拉正在使用强化学习开发AI驱动的技术。图7-1显示了强化学习架构的一个示例。

F:\paiban\电子书\19-12-52425\ZW-web-resources\image\7-1.jpg

图7-1

强化学习的基本符号如下。

  • T(s,a,s'):表示在状态s下采取行动a时到达状态s'的转移模型。
  • P:代表一项策略,该策略定义在每种可能的状态(sS)下应该采取的行动。
  • R(s):表示代理在状态s处收到的奖励。

本章将介绍如何使用R建立强化学习模型。下一节将介绍R中的MDPtoolbox。

马尔可夫决策过程(Markov Decision Process,MDP)是建立强化学习的基础,其中决策的结果是半控制的;也就是说,部分是随机的,部分是由决策者控制的。MDP是使用一组可能的状态(S)、一组可能的行动(A)、一个实值奖励函数(R)和一组给定行动从一个状态到另一个状态的转移概率(T)来定义的。此外,对一个状态执行的行动效果仅取决于该状态,而不取决于其以前的状态。 ...

Get 深度学习实战手册(R语言版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.