
780
2
부
신경망과 딥러닝
할지 모릅니다. 하지만 성공하면 이 에이전트는 (적어도 브레이크아웃에서는 ) 사람보다 뛰어
난 성능을 냅니다. 이
DQN
에이전트를 다른 아타리 게임에서 훈련시킬 수도 있습니다. 하지
만 긴 스토리를 가진 게임에는 잘 적용되지 않습니다.
50
18.13
그 외 유명한 강화 학습 알고리즘
이 장을 마치기 전에 잘 알려진 강화 학습 알고리즘 몇 개를 간단히 살펴보겠습니다.
•
액터-크리틱
actor
-
critic
알고리즘
정책 그레이디언트와 심층
Q
-
네트워크를 결합한 강화 학습 알고리즘입니다. 액터
-
크리틱 에이전트는 정
책 네트워크와
DQN
네트워크 두 개를 포함합니다.
DQN
은 에이전트의 경험을 통해 보통과 같이 훈련됩
니다. 정책 네트워크는 일반적인 정책 그레이디언트와 다르게 (그리고 훨씬 빠르게) 훈련됩니다. 여러 에
피소드를 진행해서 각 행동의 가치를 추정하고 각 행동의 할인된 미래 보상을 합하여 정규화하는 대신 에
이전트 (액터)는
DQN
(크리틱)이 추정한 행동 가치에 의존합니다. 이는 코치 (
DQN
)의 도움을 받아 훈련
하는 운동 선수(에이전트 )와 비슷합니다.
•
A3C
asynchronous
advantage
actor
-
critic
51
2016
년 딥마인드 연구자들이 복사된 다른 환경을 탐색하면서 병렬로 여러 에이전트가 학습하는