4章動的計画法

前章ではベルマン方程式について学びました。ベルマン方程式を使えば、連立方程式を得ることができます。それを解くことができれば、価値関数が求まります。このフローを図で表すと次のようになります。

ベルマン方程式を使って価値関数を求める流れ

図4-1 ベルマン方程式を使って価値関数を求める流れ

上のように、状態遷移確率p(s^\prime |s,a)、報酬関数r(s, a, s^\prime)、方策\pi(a|s)の3つの情報からベルマン方程式を使って連立方程式が得られます。そして連立方程式を解くプログラム(連立方程式ソルバ)を使って価値関数を求めることができます。しかし、このような連立方程式を明示的に出して、それを直接解くという方法が有効なのは小さな問題だけです。実際には、状態と行動のパターン数が少し増えただけで手に負えなくなります。そこで登場するのが動的計画法(Dynamic Programming) ...

Get ゼロから作るDeep Learning ❹ ―強化学習編 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.