강화 학습과 신경망을 결합한 것이다. 여기서 신경망은 관측치를 입력으로 받고 에이전트가 취
할 수 있는 각각의 행동에 대한 확률(확률 분포)을 출력한다. 에이전트는 추정된 확률에 따라
다음 행동을 무작위로 결정한다. 예를 들어 에이전트가 좌회전 또는 우회전 중 한 가지를 선택
할 수 있을 때 신경망이 좌회전에 대해
0
.
7
을 출력하면 에이전트는
70
%
의 확률로 좌회전하고
30
%
의 확률로 우회전한다.
강화 학습은 범용 인공지능으로 발전할 수 있는 큰 잠재력을 가지고 있다. 지능형 에이전트는
행동에 대한 결과가 직접적이지 않고 일련의 행동을 순차적으로 수행한 결과일 때 합리적인 의
사 결정을 내려야 한다. 이것이 바로 불확실성하에서의 추론의 전형이다.
11.7.1
강화 학습의 예
강화 학습의 예는 자율 주행 자동차, 추천 시스템, 실내 온도 조절기(목표 온도를 유지하고 에
너지를 절약하면 긍정적인 보상을 받고 사람이 온도를 조절해야 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.