April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
前章では、モンテカルロ法について学びました。モンテカルロ法を使えば、環境のモデルを使わずに方策を評価することができます。そして、評価と改善を交互に繰り返すことで、最適方策(もしくは最適に近い方策)を得ることができます。しかしモンテカルロ法は、エピソードの「終わり」にたどり着いてからでないと、価値関数の更新ができません。なぜなら、エピソードの終わりになって初めて「収益」が確定するからです。
![]() |
|
連続タスクの場合、モンテカルロ法は使うことができません。またエピソードタスクであっても、エピソードを終えるのに時間がかかる場合は、モンテカルロ法だと価値関数の更新に多くの時間を要します。特にエピソードの最初の段階では、エージェントの方策はランダムなことが多いので、さらに多くの時間が必要になります。 |
ここでは、環境のモデルを使わずに、さらには行動を1つ行うたびに価値関数を更新する手法——TD法——を説明します。TD法のTDとは、Temporal Differenceの略です。日本語では「時間差」という意味になります。エピソードの終わりを待つのではなく、一定の時間が進むごとに方策の評価と改善を行います。
TD法は、これまでに学んだ「モンテカルロ法」と「動的計画法」を合わせたような手法です。そのため、まずはその2つの手法を復習し、その後にTD法を導出します。ここでは簡単のため、モンテカルロ法を「MC法」、動的計画法を「DP法」と略記します(動的計画法は「DP」と略すのが一般的ですが、ここではTD法、MC法に合わせて「DP法」と書くことにします)。 ...