April 2022
Intermediate to advanced
376 pages
4h 55m
Japanese
「8.4.1 Double DQN」では、DQNのTDターゲットに問題があること(改善の余地があること)を指摘しました。具体的には、TDターゲットである「」の
という計算が「過大評価」されてしまうという問題です。ここでは「過大評価」されるとは何か、Double DQNではそれがどのように改善できるのかということについて説明します(ここでの説明は、ブログ[51]を参考にしました)。
今ここに取り得る行動の候補が4つのタスクがあり、状態におけるQ関数の値がすべて同じだと仮定します。つまり、
です。この場合、次の式が成り立ちます。
上のように、Q関数の値がすべて0なので、期待値の中の演算子の計算も0になります。
続いて、推定中のQ関数を使う場合を考えます。ここでは、推定中のQ関数を ...