책을 학습하고, ‘크리틱’은 값을 학습함) 같은 정책 그래디언트 알고리즘이 포함됩니다. 다양
한 유형의 강화 학습을 [그림
3
-
15
]에서 볼 수 있습니다.
강화학습
모델 기반 기법
값 기반 기법
비모델 기법
정책 기반 기법
그림
3-15
강화 학습 기법 개요, 출처: 강화 학습 입문(
https
://
oreil
.
ly
/
d0sua
)
온 - 폴리시 강화 학습
vs
오프 - 폴리시 강화 학습 요약
온-폴리시
On
-
Policy
RL
은 현재 정책의 반복을 따르면서 수집된 데이터 포인트를 바탕으로 정
책을 업데이트합니다. 그러나 모든 정책 기반 강화 학습이 반드시 온-폴리시인 것은 아닙니
다.
60
예를 들어,
RL
알고리즘이 현재 정책(
p1
)으로 행동(
a1
)을 취하고, 그 행동으로부터의
관측을 바탕으로 그래디언트 상승을 사용하여 정책을 업데이트하여 (
p2
)로 표기된 최신 학
습된 정책을 얻는다고 해보죠. 이 때 에이전트가 새로운 정책(
p2
)으로 다음 행동(
a2
)을 취
한다면, 온-폴리시로 간주됩니다.
SARSA
61
와 같은 정책 반복 기법은 온-폴리시 강화 학습
에 해당합니다. 즉, 에이전트의 행동 정책이 목표 정책(
https
://
oreil ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.