付録A方策オフ型のモンテカルロ法

ここでは、方策オフ型のモンテカルロ法について説明します。まずは方策オフ型のモンテカルロ法について、その理論を説明します。続いて「3×4のグリッドワールド」のタスクに対して、方策オフ型のモンテカルロ法を実装します。なお本付録は5章の続きとして読む内容になっています。

A.1 方策オフ型のモンテカルロ法の理論

ここでは、強化学習の問題に対して重点サンプリングを適用します。まずは、方策オン型のモンテカルロ法について復習します。私たちの目標は、次の式で定義されるQ関数をモンテカルロ法で近似することです。

q_{\pi}(s, a) = \mathbb{E}_{\pi}[G|s, a]

q_{\pi}(s, a)は、状態s、行動aからスタートして、その後は方策に従って行動したときに得られる収益の期待値を表します。モンテカルロ法を使ってQ関数を近似するには、方策で行動し、そこで得られた収益を平均します。たとえば、収益のサンプルデータを ...

Get ゼロから作るDeep Learning ❹ ―強化学習編 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.