Skip to Content
ゼロから作るDeep Learning ❹ ―強化学習編
book

ゼロから作るDeep Learning ❹ ―強化学習編

by 斎藤 康毅
April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
O'Reilly Japan, Inc.
Content preview from ゼロから作るDeep Learning ❹ ―強化学習編

4章動的計画法

前章ではベルマン方程式について学びました。ベルマン方程式を使えば、連立方程式を得ることができます。それを解くことができれば、価値関数が求まります。このフローを図で表すと次のようになります。

ベルマン方程式を使って価値関数を求める流れ

図4-1 ベルマン方程式を使って価値関数を求める流れ

上のように、状態遷移確率p(s^\prime |s,a)、報酬関数r(s, a, s^\prime)、方策\pi(a|s)の3つの情報からベルマン方程式を使って連立方程式が得られます。そして連立方程式を解くプログラム(連立方程式ソルバ)を使って価値関数を求めることができます。しかし、このような連立方程式を明示的に出して、それを直接解くという方法が有効なのは小さな問題だけです。実際には、状態と行動のパターン数が少し増えただけで手に負えなくなります。そこで登場するのが動的計画法(Dynamic Programming) ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

ゼロから作るDeep Learning ❸ ―フレームワーク編

ゼロから作るDeep Learning ❸ ―フレームワーク編

斎藤 康毅

Publisher Resources

ISBN: 9784873119755Other