
722
2
부
신경망과 딥러닝
이 잘 들어맞는 작업의 사례가 많습니다. 예를 들면 자율주행 자동차나 추천 시스템, 웹 페이지
에 광고를 배치하기
8
, 이미지 분류 시스템이 주의를 집중할 곳을 제어하기 등입니다.
18.2
정책 탐색
소프트웨어 에이전트가 행동을 결정하기 위해 사용하는 알고리즘을
정책
policy
이라고 합니다. 예
를 들어 관측을 입력으로 받고 수행할 행동을 출력하는 신경망이 정책이 될 수 있습니다(그림
18
-
2
).
에이전트 환경
정책
행동
보상 & 관측
그림
18-2
신경망 정책을 사용한 강화 학습
정책은 생각할 수 있는 어떤 알고리즘도 될 수 있으며 결정적일 필요가 없습니다. 사실 어떤 경
우에는 환경을 관측할 필요도 없습니다! 예를 들어
30
분 동안 수집한 먼지의 양을 보상으로 받
는 로봇 진공청소기를 생각해봅시다. 이 청소기의 정책은 매 초마다 어떤 확률
p
만큼 전진하는
것일 수도 있고, (
1
-
p
)의 확률로 왼쪽 또는 오른쪽으로 랜덤하게 회전하는 것일 수도 있습니
다. 회전 각도는 -
r
과 +
r
사이의 랜덤한 각도일 수 있습니다. 이 정책에는 무작위성이 포함되
어 있기 때문에
확률적 정책
stochastic
policy
이라고 합니다. 로봇이 도달할 수 있는 어떤 장소라도 모
두 찾아서 먼지를 수집하려고 이상한 궤적을 만들어낼 것입니다. 궁금한 것은 ‘
30