
817
18
장
강화 학습
18.5
행동 평가: 신용 할당 문제
각 스텝에서 가장 좋은 행동이 무엇인지 알고 있다면 평소처럼 추정된 확률과 타깃 확률 사이
의 크로스 엔트로피를 최소화하도록 신경망을 훈련할 수 있습니다. 이는 일반적인 지도 학습
과 같습니다. 하지만 강화 학습에서 에이전트가 얻을 수 있는 가이드는 보상뿐입니다. 보상은
일반적으로 드물고 지연되어 나타납니다. 예를 들어 에이전트가
100
스텝 동안 막대의 균형을
유지했다면 이
100
번의 행동 중 어떤 것이 좋고, 어떤 것이 나쁜지 알 수 있을까요? 우리가 아
는 것은 마지막 행동 뒤에 막대가 쓰러졌다는 것뿐입니다. 하지만 모든 책임이 이 마지막 행동
에 있는 것은 당연히 아닙니다. 이를
신용 할당 문제
credit
assignment
problem
라고 합니다. 즉, 에이전
트가 보상을 받았을 때 어떤 행동 덕분인지 (혹은 탓인지) 알기 어렵습니다. 주인의 말을 잘 따
르고 몇 시간이 지나서 보상을 받은 강아지를 생각해보세요. 이 강아지는 무엇 때문에 보상을
받았는지 이해할 수 있을까요?
이 문제를 해결하기 위해 흔히 사용하는 전략은 행동이 일어난 후 각 단계마다
할인 계수
discount
factor
γ
(감마 )를 적용한 보상을 모두 합하여 행동을 평가하는 것입니다. 할인된 보상의 합을 행
동의
대가 ...