3章ベルマン方程式
前章では「2マスのグリッドワールド」という問題に取り組みました。その問題では、環境が決定論的であり、さらにはエージェントも決定論的に行動すると仮定しました。そのため、バックアップ線図は図3-1の左側のように1直線に伸びます。
図3-1の左図のように、バックアップ線図が1直線に伸びる場合は、前章の方法(数式による計算)で状態価値関数を求めることはできました。しかし、MDPは確率的な振る舞いをする場合も考えられます。その場合のバックアップ線図は、図3-1の右図のように広がりを持って伸びていきます。残念ながら、そのような状態価値関数は前章の手計算で求めることはできません。
本章では、図3-1の右図のような状況においても状態価値関数を求めることを目標とします。そのためのキーとなるのがベルマン方程式(Bellman Equation)です。ベルマン方程式は、MDPで成り立つ最も重要な方程式であり、多くの強化学習のアルゴリズムにおいて重要な基礎を与えてくれます。
3.1 ベルマン方程式の導出
ここではベルマン方程式の導出を行います。まずはその下準備として、簡単な例を見ながら確率と期待値について復習します。その後にベルマン方程式の導出へと進みます。すでに確率や期待値について自信のある方は、「3.1.1 確率と期待値(ベルマン方程式のための下準備)」は読み飛ばして「3.1.2 ベルマン方程式の導出 ...
Get ゼロから作るDeep Learning ❹ ―強化学習編 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.