ret = (data_period.values[-1] - data_period.values[0]) / \
data_period.values[0]
return np.dot(returns, weights), ret
다음 단계에서 강화 학습 모델의 훈련을 살펴보자.
4.2
데이터 훈련
첫 번째 단계로
Agent
클래스와
CryptoEnvironment
클래스를 초기화한다. 그런 다음 훈
련 목적에 맞게 에피소드 수와 배치 크기를 설정한다. 암호화폐의 변동성을 감안해 상태
window
_
size
를
180
으로,
rebalancing
_
frequency
를
90
일로 설정했다.
N_ASSETS = 15
agent = Agent(N_ASSETS)
env = CryptoEnvironment()
window_size = 180
episode_count = 50
batch_size = 32
rebalance_period = 90
[그림
9
-
10
]은 강화 학습 기반 포트폴리오 배분 전략을 개발하는 데 사용되는 딥
Q
망 알고
리즘 훈련의 심층적인 내용을 제공한다. 자세히 보면 차트는 실전 문제
1
의 [그림
9
-
8
]에 정
의된 단계와 유사하지만
Q
-
Matrix
, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.