
161
CHAPTER 03
기술 인터뷰: 머신러닝 알고리즘
트되는 정책 )이라면, 그 강화 학습은 온-폴리시
RL
입니다.
오프-폴리시
Off
-
Policy
강화 학습 알고리즘은 다른 정책 또는 결합된 정책으로부터 수집된 데이
터 포인트 또는 경험을 바탕으로 정책을 업데이트합니다.
Q
-러닝과
DQN
은 오프-폴리시
강화 학습에 해당합니다. 그런데 공교롭게도 이 알고리즘들은 값 기반 강화 학습이기도 하
죠. 혼란을 방지하기 위해 말씀드리면, 온-폴리시 대 오프-폴리시는 에이전트가 업데이트되
는 새로운 정책을 사용하는지 여부와 관련이 있으며, 정책 기반 대 값 기반은 최적의 행동을
도출하기 위해 사용된 알고리즘의 유형과 관련이 있습니다.
이 외에도 우리가 더 살펴볼 수 있는 알고리즘이 많이 있습니다. 시간차
Temporal
Difference
(
TD
),
비동기적 어드밴티지 액터 크리틱
Asynchronous
Advantage
Actor
-
Critic
(
A3C
),
PPO
등이 있습니다. 이
에 대해 더 알고 싶은 분들은 리처드 서튼과 앤드류 바토가 저술한 강화 학습 교과서를 온라
인(
https
://
oreil
.
ly
/
MCgBK
)또는 절 시작 앞 부분의 자료에서 확인해보세요.
강화 학습에 관한 인터뷰 문제 예시
이제 기초적인
RL
개념에 친숙해졌으니, 몇 가지 인터뷰 문제 예시를 살펴보겠습니다. ...