
375
9
장
강화 학습
4.
알고리즘 및 모델 평가
이 직접 정책 검색 접근법에서는 인공 신경망을 사용해 상태를 동작으로 매핑한다. 기존 인
공 신경망에서는 모든 입출력이 서로 독립적이라고 가정한다. 그러나 시간
t
에서의 헤징 결
정(
δ
t
로 표시 )은 경로에 따라 달라지며 이전 시간 단계에서 내린 주가와 헤징 결정의 영향
을 받는다. 따라서 전통적인 인공 신경망을 사용하기는 불가하다. 순환 신경망은 인공 신경
망의 한 종류로 기본 시스템의 시간에 따라 변화하는 역학을 포착할 수 있으며, 이런 맥락에
서 더욱 적합하다. 순환 신경망에는 지금까지 계산된 정보를 저장하는 메모리가 있다.
5
장에
서 시계열 모델링을 위해 순환 신경망 모델의 이 속성을 사용했다.
LSTM
(
5
장에서도 논의
됨)은 장기 종속성을 학습할 수 있는 특별한 종류의 순환 신경망이다. 동작에 매핑할 때 망
에서 과거 상태 정보를 사용할 수 있다. 관련 과거 데이터의 추출은 학습 과정의 일부로 학
습된다.
LSTM
모델을 사용해 상태를 동작으로 매핑하고 헤징 전략(즉,
δ
1
,
δ
2
, …
δ
T
)을 얻
는다.
4.1
정책 경사 스크립트
이 절에서는 구현 단계와 모델 훈련을 다룬다. 주가 경로(
S
1
,
S
2
, ...
S
T
), 행사가, 위험 회
피 매개변수
α
같은 입력 변수를 훈련된 모델에 제공하고 출력으로 헤징 전략