April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
「6章 TD法」で説明したTD法では、TDターゲットとして1ステップ先の情報だけを使いました。このTDターゲットは、2ステップ先、3ステップ先、...とさらに先の情報も使うように拡張することができます。これが「nステップのTD法」のアイデアです。数式では、価値関数の更新式は次のように表されます。
このときは
の値に応じて次の値を取ります。
上のように、の値に応じてTDターゲットであるが変わります。のときはTD法です。のときは、ゴールまでたどり着くということであり、これはMC法に対応します。nステップのTD法では、 ...