
773
18
장
강화 학습
언제든지 각 지표의 값을 확인하고 싶으면
result
()
메서드를 호출합니다 (예를 들면
train
_
metrics
[
0
].
result
()
). 또는
log
_
metrics
(
train
_
metrics
)
를 호출하여 모든 지표를 로그
에 기록할 수 있습니다 (이 함수는
tf
_
agents
.
eval
.
metric
_
utils
패키지에 있습니다 ).
>>> from tf_agents.eval.metric_utils import log_metrics
>>> import logging
>>> logging.get_logger().set_level(logging.INFO)
>>> log_metrics(train_metrics)
[...]
NumberOfEpisodes = 0
EnvironmentSteps = 0
AverageReturn = 0.0
AverageEpisodeLength = 0.0
다음으로 수집 드라이버를 만들어봅시다.
18.12.10
수집 드라이버 만들기
[그림
18
-
13
]에서 살펴보았듯이 드라이버는 주어진 정책으로 환경을 탐색하고 경험을 수집하
고 옵저버에 이를 전파하는 객체입니다. 각 스텝에서 다음 작업을 수행합니다.
•
드라이버는 현재 타입 스텝을 수집 정책에 전달합니다. 수집 정책은 타임 스텝을 사용해 행동을 선택하고
행동을 포함한
행동 스텝
action ...