April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
ここでは、方策オフ型のモンテカルロ法について説明します。まずは方策オフ型のモンテカルロ法について、その理論を説明します。続いて「3×4のグリッドワールド」のタスクに対して、方策オフ型のモンテカルロ法を実装します。なお本付録は5章の続きとして読む内容になっています。
ここでは、強化学習の問題に対して重点サンプリングを適用します。まずは、方策オン型のモンテカルロ法について復習します。私たちの目標は、次の式で定義されるQ関数をモンテカルロ法で近似することです。
は、状態
、行動
からスタートして、その後は方策に従って行動したときに得られる収益の期待値を表します。モンテカルロ法を使ってQ関数を近似するには、方策で行動し、そこで得られた収益を平均します。たとえば、収益のサンプルデータを ...