Skip to Content
금융 전략을 위한 머신러닝: 19가지 사례를 통해 익히는 금융 전략, 머신러닝, 데이터 과학
book

금융 전략을 위한 머신러닝: 19가지 사례를 통해 익히는 금융 전략, 머신러닝, 데이터 과학

by 김한상, 하리옴 탓샛, 사힐 푸리, 브래드 루카보
December 2021
Beginner to intermediate
468 pages
11h 42m
Korean
Hanbit Media, Inc.
Content preview from 금융 전략을 위한 머신러닝: 19가지 사례를 통해 익히는 금융 전략, 머신러닝, 데이터 과학
348
4
강화 학습과 자연어 처리
상태(s)
Q 가치-
보류
Q 가치-
매수
Q 가치-
매도
그림
9-6
Q
정책 경사
정책 경사는 정책 함수
π
를 학습하는 정책 기반 방법으로, 각 상태에서는 해당 상태에 가장 적
합한 동작으로 직접 매핑한다.
Q
가치 함수가 필요 없는 가치 기반 방법보다 더 간단한 접근방
식이다.
정책 경사 방법은
θ
,
π
(
a
|
s
;
θ
)에 대해 매개변수화된 함수로 정책을 직접 학습한다. 이 함수
는 복잡할 수 있으며 정교한 모델이 필요할 수도 있다. 정책 경사 방법에서는 복잡한 함수를 학
습하는 데 효율적이기 때문에 인공 신경망을 사용해 상태를 동작으로 매핑한다. 인공 신경망의
손실 함수는 예상 수익(누적 미래 보상 )과 반대된다. 정책 경사 방법의 목적 함수는 다음과 같
이 정의한다.
V
1
J (θ)=V
π
θ
(
S
1
)
=
π
θ
이 식에서
θ
는 상태를 동작에 매핑하는 인공 신경망의 가중치 집합을 나타낸다. 여기서 아이디
어는 목적 함수를 최대화해 인공 신경망의 가중치 (
θ
)를 계산하는 것이다.
이는 최대화 문제이기 때문에 정책 매개변수
θ
에 대한 목표의 편미분을 사용해 경사 상승 (손
실 함수를 최소화하는 데 사용되는 경사 하강과 반대됨 )을 구해 정책을 최적화한다.
θ
θ +
∂θ
J (θ
)
349
9
강화 학습
경사 상승을 사용해 가장 높은 수익을 내는 최고의
θ
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

자바로 배우는 핵심 자료구조와 알고리즘: 기술 면접에 필요한 실용주의 자료구조와 알고리즘

유동환, 앨런 B. 다우니

Publisher Resources

ISBN: 9791162245002