5章モンテカルロ法

前章では、動的計画法(DP)を使って最適価値関数と最適方策を得ました。ただし、その手法を使うには「環境のモデル(状態遷移確率と報酬関数)」が既知である必要があります。残念ながら、問題によっては環境のモデルが未知の場合も考えられます。また仮に知ることができたとしても、DPによる手法では計算量が膨大になるため現実的でないことも多くあります。強化学習という分野では、環境のモデルが未知の中でより良い方策を見つける問題を主に扱います。そのためには、エージェントが実際に行動を起こし、その経験から学ぶ必要があります。

本章のテーマはモンテカルロ法(Monte Carlo Method)です。モンテカルロ法とは、データのサンプリングを繰り返し行って、その結果から推定する手法の総称です。強化学習では、モンテカルロ法を使うことで、経験から価値関数を推定することができます。ここで言う「経験」とは、環境とエージェントが実際にやりとりを行って得られたデータです。具体的には、「状態、行動、報酬」の一連のデータが経験です。本章での目標は、エージェントが得た経験をもとに価値関数を推定することです。その目標が達成できたら、続いて最適方策を見つける方法について見てきます。

本章からようやく、真に強化学習の問題へと進みます。私たちはこれまで、強化学習に関しての重要な基礎を時間をかけて学んできました。これまで学んだ知識があれば、強化学習の問題へのアプローチも、モンテカルロ法による手法も、自然な流れで理解できるでしょう。

5.1 モンテカルロ法の基礎

これまで私たちは環境のモデルが既知である問題を扱ってきました。たとえば「グリッドワールド」の問題では、エージェントの行動に対して、その次の遷移先と報酬が明らかでした。数式で言えば、状態遷移確率の ...

Get ゼロから作るDeep Learning ❹ ―強化学習編 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.