4章動的計画法
前章ではベルマン方程式について学びました。ベルマン方程式を使えば、連立方程式を得ることができます。それを解くことができれば、価値関数が求まります。このフローを図で表すと次のようになります。
上のように、状態遷移確率、報酬関数、方策の3つの情報からベルマン方程式を使って連立方程式が得られます。そして連立方程式を解くプログラム(連立方程式ソルバ)を使って価値関数を求めることができます。しかし、このような連立方程式を明示的に出して、それを直接解くという方法が有効なのは小さな問題だけです。実際には、状態と行動のパターン数が少し増えただけで手に負えなくなります。そこで登場するのが動的計画法(Dynamic Programming) ...
Get ゼロから作るDeep Learning ❹ ―強化学習編 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.