는 복잡할 수 있으며 정교한 모델이 필요할 수도 있다. 정책 경사 방법에서는 복잡한 함수를 학
습하는 데 효율적이기 때문에 인공 신경망을 사용해 상태를 동작으로 매핑한다. 인공 신경망의
손실 함수는 예상 수익(누적 미래 보상)과 반대된다. 정책 경사 방법의 목적 함수는 다음과 같
이 정의한다.
V
1
J(θ)=V
π
θ
(
S
1
)
=
π
θ
이 식에서
θ
는 상태를 동작에 매핑하는 인공 신경망의 가중치 집합을 나타낸다. 여기서 아이디
어는 목적 함수를 최대화해 인공 신경망의 가중치(
θ
)를 계산하는 것이다.
이는 최대화 문제이기 때문에 정책 매개변수
θ
에 대한 목표의 편미분을 사용해 경사 상승(손
실 함수를 최소화하는 데 사용되는 경사 하강과 반대됨)을 구해 정책을 최적화한다.
∂
θ
θ+
∂θ
J(θ
)
349
9
장
강화 학습
경사 상승을 사용해 가장 높은 수익을 내는 최고의
θ
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.