付録BRL4Jと強化学習

Ruben Fiszel

http://rubenfiszel.github.io/

B.1 序文

この付録では、まず強化学習(reinforcement learning)の概要を紹介します。続いてピクセル入力に対するDeep Qネットワーク(DQN)について詳しく説明し、最後にRL4Jの例を示します。強化学習の主要な概念について説明するところから始めましょう。

強化学習は機械学習の興味深い分野の1つです。基本的には、与えられた環境における効率的な戦略による学習です。くだけた議論では、これはパブロフ型条件付け(Pavlovian conditioning)にとてもよく似ています。与えられた行動に対して報酬を割り当てると、時間経過とともに、エージェントはより多くの報酬を受け取るために行動を再現することを学習します。

B.1.1 マルコフ決定過程

形式的には、環境はマルコフ決定過程(Markov Decision Process:MDP)によって定義されます。この恐ろしげな名前の背後にあるのは、以下の5つの要素の組み合わせ以外の何物でもありません。

  • 状態の組み合わせS(例えばチェスでは、盤面の配置が状態となる)
  • 取り得る行動の組み合わせA(チェスでは、すべての配置で取り得るすべての手。例えば、e4-e5)
  • 現在の状態と行動が与えられている場合の、次のステージの条件付き分布P(s^{\prime}\mid s,a)(チェスのような決定性の環境であれば、1つの状態だけが確率が1で、その他すべての確率はゼロになる。しかし、コイン投げのようなランダム性を持つ確率的な環境では、分布は単純ではない) ...

Get 詳説 Deep Learning ―実務者のためのアプローチ now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.