
331
9
장
강화 학습
인센티브는 거의 모든 것을 이끄는 힘이 있는데, 금융도 예외는 아니다. 인간은 레이블이 붙은
수백만 개의 사례에서 배우지 않는다. 대신 행동에 뒤따르는 긍정적 경험이나 부정적 경험을
통해 배운다. 이와 같이 경험과 그에 따라 주어지는 보상이나 페널티에서 배운다는 것이 강화
학습의 핵심 아이디어이다.
강화 학습은 보상을 극대화하고 페널티를 최소화하는 최적의 정책을 통해 최선의 조치를 찾도
록 머신을 훈련시키는 접근방식이다.
알파고 (바둑 프로기사를 물리친 최초의 컴퓨터 프로그램 )를 강화한 강화 학습 알고리즘도 금
융 분야로 진출하고 있다. 보상을 극대화하는 강화 학습의 주요 아이디어는 알고리즘 거래, 포
트폴리오 관리 등 재무의 여러 영역에 부합한다. 강화 학습은 불확실하고 역동적인 환경에서
수익률을 극대화하는 에이전트의 개념이 금융 시장과 상호 작용하는 투자자나 거래 전략과 공
통점이 많기 때문에 특히 알고리즘 거래에 적합하다. 강화 학습 기반 모델은 이전 장에서 논의
한 가격 예측 기반 거래 전략에서 한 단계 더 나아가 행동 (즉, 주문, 아무것도 하지 않음, 주문
취소 등)에 대한 규칙 기반 정책을 결정한다.
마찬가지로 포트폴리오 관리 및 자산 배분에서 강화 학습 기반 알고리즘은 예측을 생성하지 않
으며 시장 구조를 암시적으로 학습하지 ...