
748
2
부
신경망과 딥러닝
그럼
DQN
을 어떻게 훈련할 수 있을까요? 주어진 상태-행동 쌍 (
s
,
a
)에 대해
DQN
이 계산
한 근사
Q
-가치를 생각해보겠습니다. 벨먼 식 덕분에 이 근사
Q
-가치는 상태
s
에서 행동
a
를
실행했을 때 관측된 보상
r
과 그 이후에 최적으로 행동해서 얻은 할인된 가치를 더한 값에 가능
한 한 가깝게 되어야 합니다. 이 미래의 할인된 가치를 추정하기 위해서는 간단하게 다음 상태
s
′와 모든 가능한 행동
a
′에 대해
DQN
을 실행하면 됩니다. 그럼 모든 가능한 행동에 대한 미
래의 근사
Q
-가치를 얻을 수 있습니다. 그다음에 (최적으로 행동할 것이라고 가정하기 때문
에) 가장 높은 것을 고르고 할인을 적용하면 할인된 미래 보상의 추정을 얻을 수 있습니다. 보
상
r
과 미래의 할인된 가치 추정을 더하면 [식
18
-
7
]과 같이 상태-행동 쌍 (
s
,
a
)에 대한 타깃
Q
-가치
y
(
s
,
a
)를 얻게 됩니다.
식
18-7
타깃
Q
-가치
a
target
′
θ
이 타깃
Q
-가치로 경사 하강법을 사용해 훈련 단계를 수행할 수 있습니다. 구체적으로 말하면
추정된
Q
-가치
Q
(
s
,
a
)와 타깃
Q
-가치 사이의 제곱 오차를 최소화합니다(또는 알고리즘이
큰 오차에 민감하지 않도록 후버 손실을 사용합니다 ). 이것이 ...