402
4
부
강화 학습과 자연어 처리
9.5
맺음말
보상 극대화는 알고리즘 거래, 포트폴리오 관리, 파생 상품 가격 책정, 헤징, 거래 실행을 추진
하는 핵심 원칙의 하나이다. 이 장에서는 강화 학습 기반 접근법을 사용할 때 거래, 파생상품
헤징, 포트폴리오 관리에 대한 전략이나 정책을 명시적으로 정의할 필요가 없음을 확인했다.
알고리즘은 정책 자체를 결정하므로 다른 머신러닝 기술보다 훨씬 간단하고 원칙적인 접근법
으로 이어질 수 있다.
‘실전 문제
1
: 강화 학습 기반 거래 전략’에서는 강화 학습이 알고리즘 거래를 간단한 게임으로
만드는 것을 보았다.
‘실전 문제
2
: 파생상품 헤징’에서는 전통적인 파생상품 헤징 문제에 대해 강화 학습을 사용해
봤다. 파생상품 헤징에서 강화 학습의 효율적인 수치 계산을 활용해 기존 모델의 단점을 몇 가
지 해결할 수 있음을 시연해 보였다.
‘실전 문제
3
: 포트폴리오 배분’에서는 지속적으로 변화하는 시장 환경에서 포트폴리오 가중치
를 동적으로 변경하는 정책을 학습해 포트폴리오 배분을 수행했다. 이는 포트폴리오 관리 과정
을 더 많이 자동화할 수 있다.
강화 학습은 계산 비용이 많이 들고 데이터 집약적이며 해석력이 부족한 것과 같은 문제가 있
지만 보상 극대화를 기반으로 한 정책 프레임워크에 적합한 금융 분야에 완벽하게 맞아떨어진
다. 강화 학습은 바둑, 체스, 아타리 게임 같은 유한한 동작 공간에서 초인적 성과를 달성했다.
더 많은 데이터, 정제된 강화 학습 알고리즘, 우수한 인프라의 가용성을 통해 재무 ...