782
2
부
신경망과 딥러닝
18.14
연습문제
1.
강화 학습을 어떻게 정의할 수 있나요? 지도 학습이나 비지도 학습과 어떻게 다른가요?
2.
이 장에서 언급하지 않은 가능한
RL
애플리케이션을 세 가지 생각해보세요. 각 애플리케
이션의 환경은 무엇인가요? 에이전트는 무엇인가요? 가능한 행동은 무엇인가요? 보상은
무엇인가요?
3.
할인 계수는 무엇인가요? 할인 계수를 바꾸면 최적의 정책이 바뀔 수 있나요?
4.
강화 학습 에이전트의 성능은 어떻게 측정할 수 있나요?
5.
신용 할당 문제가 무엇인가요? 언제 이런 문제가 발생하나요? 어떻게 이를 감소시킬 수
있나요?
6.
재생 메모리를 사용하는 이유는 무엇인가요?
7.
오프-폴리시
RL
알고리즘이 무엇인가요?
8.
정책 그레이디언트를 사용해
OpenAI
짐의
LunarLander
-
v2
환경을 해결해보세요.
이를 위해
Box2D
패키지를 설치해야 합니다 (
python3
-
m
pip
install
-
U
gym
[
box2d
]
).
9.
알고리즘에 상관없이
TF
-
Agents
를 사용해
SpaceInvaders
-
v4
환경에서 사람을 능가
하는 에이전트를 훈련해보세요.
10. 10
만 원 정도 여유가 있다면 라즈베리 파이
Raspberry
Pi
3
와 저렴한 로보틱스 구성품을 구입
해 텐서플로를 설치하고 실행할 수 있습니다! 예를 들어 루카스 비월드
Lukas
Biewald
의 재미
있는 포스트 (
https
://
homl
.
info
/
2
)를 참고하거나,
GoPiGo42
나
BrickPi43
를 둘러보
세요. 간단한 작업부터 시작해보세요. ...