
763
18
장
강화 학습
하면 이런 작업을 처리합니다. 또는
suite
_
gym
.
load
()
함수가 짐 환경을 만들고 래퍼를 받
아 처리도 해줍니다. 래퍼는 매개변수 없이 만들어지기 때문에 매개변수를 지정하고 싶으면
lambda
로 전달해야 합니다. 예를 들어 다음 코드는 각 에피소드에서 최대
10
,
000
번 스텝을 실
행하고 각 행동이 네 번 반복되는 <브레이크아웃> 환경을 만듭니다.
from gym.wrappers import TimeLimit
limited_repeating_env = suite_gym.load(
"Breakout-v4",
gym_env_wrappers=[lambda env: TimeLimit(env, max_episode_steps=10000)],
env_wrappers=[lambda env: ActionRepeat(env, times=4)])
아타리 환경을 사용하는 경우 대부분의 논문에서 적용하는 표준적인 전처리 단계가 있습니다.
TF
-
Agents
는 이를 구현하여 간편한
AtariPreprocessing
래퍼를 제공합니다. 이 래퍼가 제
공하는 전처리 목록은 다음과 같습니다.
•
흑백 변환과 다운샘플링
관측을 흑백으로 변환하고 다운샘플링합니다 (기본적으로
84
×
84
픽셀로 줄입니다).
41
•
맥스 풀링
게임의 마지막 두 프레임을
1
×
1
필터로 ...