
153
CHAPTER 03
기술 인터뷰: 머신러닝 알고리즘
3
.
6
강화 학습 알고리즘
저는
3
.
3
‘지도 학습, 비지도 학습, 강화 학습’ 절에서 강화 학습(
RL
) 알고리즘을 간략히 소
개했습니다.
RL
은 ‘시행착오’를 통해 학습하며, 간단한 경우에는 사전에 준비된 데이터 세
트나 알려진 레이블이 필요 없습니다. 예를 들어,
RL
은 로봇이 미로를 여러 차례 탐색하면
서 금, 함정, 출구의 위치를 학습하는 방식으로 지식을 수집합니다. 강화 학습은 자율주행
차량, 게임
50
, 대규모 추천 시스템,
LLM
개선 (예를 들어,
ChatGPT
의 개선에 큰 역할을 한
RLHF
51
) 등 다양한 분야에서 응용되고 있습니다. 그러므로,
RL
을 사용하는 팀과 인터뷰를
할 때는
RL
에 대한 이해가 필수적입니다.
TIP
앞서 언급했듯이,
RL
은 실제 환경에 적용하기엔 까다로운 고급 기술에 속합니다. 따라서 신입 직무에
지원하는 경우, 머신러닝에 대한 광범위한 지식을 먼저 습득하는 데 집중하는 것이 중요합니다. 저의 경험에
따르면, 이러한 지식을 갖춘 후
RL
에 대한 이해를 더하면 취업 시장에서 돋보일 수 있습니다.
이번 절은 이 분야에 대한 배경 지식에 자신 없는 분들을 위해
RL
기법의 기본을 다룹니다.
여러분이 이 분야의 전문가라면 건너뛰어도 좋습니다. 여러분의 전문성과는