
753
18
장
강화 학습
NOTE
_
강화 학습은 어렵기로 유명합니다. 대부분 훈련이 불안정하고 하이퍼파라미터 값과 랜덤 시드의 선
택에 크게 민감하기 때문입니다.
31
안드레이 카르파트히
Andrej
Karpathy
연구원의 말에 따르면 “지도 학습은 잘
됩니다. […] 강화 학습은 잘하도록 만들어야 합니다”.
32
시간, 인내, 노력 그리고 아마 약간의 행운도 필요합
니다. 이것이 강화 학습이 보통의 딥러닝(예를 들면 합성곱 신경망)처럼 널리 적용되지 않은 주요 이유입니다.
하지만 알파고와 아타리 게임말고도 몇몇 실전 애플리케이션이 있습니다. 로봇 애플리케이션이나 하이퍼파
라미터 튜닝, 추천 시스템에 사용됩니다. 구글은 강화 학습을 사용해 데이터센터의 비용을 최적화합니다.
왜 손실 그래프를 그리지 않았는지 궁금할 수 있습니다. 손실은 이 모델의 성능을 재는 데 좋
지 않습니다. 손실이 내려가더라도 에이전트가 엉망으로 행동할 수 있습니다 (예를 들어 에이
전트가 환경의 작은 지역에 갇힐 때 일어날 수 있습니다.
DQN
이 이 영역에 과대적합되기 시
작할 것입니다 ). 반대로 손실이 올라가더라도 에이전트가 더 잘 수행할 수 있습니다 (예를 들어
DQN
이
Q
-가치를 과소평가하여 예측을 올바르게 증가하기 시작하면 에이전트가 더 많은 보
상을 받아 잘 수행될 것입니다. 하지만 ...