
729
18
장
강화 학습
18.4
신경망 정책
신경망 정책을 만들어봅시다. 앞서 하드코딩한 정책과 마찬가지로 이 신경망은 관측을 입력으
로 받고 실행할 행동을 출력합니다. 조금 더 정확히 말해 각 행동에 대한 확률을 추정합니다.
그리고 추정된 확률에 따라 랜덤하게 행동을 선택할 것입니다 (그림
18
-
5
).
CartPole
환경의
경우엔 가능한 행동이 두 개(왼쪽과 오른쪽) 있으므로 하나의 출력 뉴런만 있으면 됩니다. 이
뉴런은 행동
0
(왼쪽)의 확률을 출력합니다. 당연하게 행동
1
(오른쪽)의 확률은
1
-
p
가 됩니
다. 예를 들어
0
.
7
을 출력했다면 행동
0
은
70
% 확률로 선택될 것이고, 행동
1
은
30
% 확률로
선택될 것입니다.
다항 분포 샘플링
행동
관측
은닉층
행동 0(왼쪽)의 확률
그림
18-5
신경망 정책
왜 가장 높은 점수의 행동을 그냥 선택하지 않고 신경망이 만든 확률을 기반으로 랜덤하게 행
동을 선택하는지 궁금할 것입니다. 이런 방식은 에이전트가 새로운 행동을
탐험
exploring
하는 것
과 잘 할 수 있는 행동을
활용
exploiting
하는 것 사이에 균형을 맞추게 합니다. 비유를 들어볼까
요? 어떤 음식점에 처음 방문했다고 합시다. 모든 메뉴가 좋아 보여서 아무거나 골랐습니다.
음식이 좋았다면 다음에 다시 같은 메뉴를 주문할 가능성이 높을 것입니다. 하지만 ...