Skip to Content
ゼロから作るDeep Learning ❹ ―強化学習編
book

ゼロから作るDeep Learning ❹ ―強化学習編

by 斎藤 康毅
April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
O'Reilly Japan, Inc.
Content preview from ゼロから作るDeep Learning ❹ ―強化学習編

付録BnステップのTD法

6章 TD法」で説明したTD法では、TDターゲットとして1ステップ先の情報だけを使いました。このTDターゲットは、2ステップ先、3ステップ先、...とさらに先の情報も使うように拡張することができます。これが「nステップのTD法」のアイデアです。数式では、価値関数の更新式は次のように表されます。

V^\prime_{\pi} (S_t) = V_{\pi} (S_t) + \alpha \left\{ G_t^{(n)} - V_{\pi} (S_t) \right\}

このときG_t^{(n)}nの値に応じて次の値を取ります。

\begin{aligned} n=1\text{のとき}\quad &  G^{(1)}_t = R_t + \gamma V_{\pi}(S_{t+1}) \\ n=2\text{のとき}\quad & G^{(2)}_t = R_t + \gamma R_{t+1} + \gamma^2 V_{\pi}(S_{t+2}) \\ & \cdots \\ n=\infty\text{のとき}\quad & G^{(\infty)}_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \end{aligned}

上のように、nの値に応じてTDターゲットであるが変わります。のときはTD法です。のときは、ゴールまでたどり着くということであり、これはMC法に対応します。nステップのTD法では、 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

ゼロから作るDeep Learning ❸ ―フレームワーク編

ゼロから作るDeep Learning ❸ ―フレームワーク編

斎藤 康毅

Publisher Resources

ISBN: 9784873119755Other