
744
2
부
신경망과 딥러닝
이 식의 첫 번째 형태를 더 간단히 쓰는 방법은
α
표기법을 사용하는 것입니다. 이 표기는
a
k
+
1
← (
1
–
α
)·
a
k
+
α
·
b
k
를 뜻합니다. 따라서 [식
18
-
4
]의 첫 번째 줄을 다음과 같이 다시
쓸 수 있습니다.
s
←+
′
γ
∙
TIP
TD
학습은 확률적 경사 하강법(
SGD
)과 비슷한 점이 많습니다. 특히 한 번에 하나의 샘플을 다루는 점이 같
습니다.
SGD
와 같이 학습률을 점진적으로 줄여가야 올바르게 수렴할 수 있습니다(그렇지 않으면 최적의
Q
-
가치 주변을 오갈 것입니다).
각 상태
s
에서 이 알고리즘은 에이전트가 이 상태를 떠났을 때 얻을 수 있는 당장의 보상과 (최
적으로 행동한다고 가정하여 ) 나중에 기대할 수 있는 보상을 더한 이동 평균
30
을 저장합니다.
18.9
Q
-러닝
비슷하게
Q
-러닝
Q
-
learning
알고리즘은 전이 확률과 보상을 초기에 알지 못한 상황에서
Q
-가치
반복 알고리즘을 적용한 것입니다 (식
18
-
5
).
Q
-러닝은 에이전트가 플레이(예를 들면 랜덤
하게 )하는 것을 보고 점진적으로
Q
-가치 추정을 향상하는 방식으로 작동합니다. 정확한 (또
는 충분히 근접한 )
Q
-가치 추정을 얻게되면 최적의 정책은 가장 높은
Q
-가치를 가지는 행동
을 선택하는 것입니다 (즉, 탐욕적 정책입니다