April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
前章ではベルマン方程式について学びました。ベルマン方程式を使えば、連立方程式を得ることができます。それを解くことができれば、価値関数が求まります。このフローを図で表すと次のようになります。
図4-1 ベルマン方程式を使って価値関数を求める流れ
上のように、状態遷移確率、報酬関数
、方策
の3つの情報からベルマン方程式を使って連立方程式が得られます。そして連立方程式を解くプログラム(連立方程式ソルバ)を使って価値関数を求めることができます。しかし、このような連立方程式を明示的に出して、それを直接解くという方法が有効なのは小さな問題だけです。実際には、状態と行動のパターン数が少し増えただけで手に負えなくなります。そこで登場するのが動的計画法(Dynamic Programming) ...