Skip to Content
머신러닝 인터뷰 실무 가이드
book

머신러닝 인터뷰 실무 가이드

by 수잔 수 창, 박상현
September 2024
Beginner to intermediate
364 pages
8h 27m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 인터뷰 실무 가이드
158
머신러닝 인터뷰 실무 가이드
출구
로봇
폭탄
그림
3-14
강화 학습의 예: 미로를 탐색하는 로봇
이제 기대 누적 보상의 개념을 특정 상태에서 행동을 취했을 때의 기대 누적 보상인
Q
-값과
연결해 보겠습니다.
Q
-함수는 이와 관련된 개념으로써, 상태-행동 쌍을 입력 받아
Q
-값을
출력합니다. 정책은
RL
에이전트가 주어진 상태에서 취해야 할 행동을 결정합니다. 모든 것
을 하나로 묶어,
Q
-러닝에서 최적의 정책은 각 상태에서 가장 높은
Q
-값을 가진 행동을 선
택하는 것으로부터 나옵니다. 각 단계 후에는 정책이 평가되고 벨만 방정식
Bellman
equation
53
사용한 최적화 방법을 통해
Q
-값이 업데이트됩니다. 이 과정은 정책이 수렴하고 주어진 상
태에서 동일한 행동을 선택할 때까지 반복됩니다.
모델 기반 강화 학습
vs
비모델 강화 학습 요약
Q
-러닝은 세계, 즉 상태와 행동 간의 관계를 모델링하기 위한 모델을 사용하지 않기 때문에
비모델
model
-
free
RL
기법에 해당합니다. 상태와 행동을 나타내야 하지만,
Q
-값과 정책 (정책
반복을 사용할 경우 )을 개선하기 위해서는 보상을 관찰하기만 하면 됩니다.
53
“벨만 방정식,” 강화 학습 용어집,
2023
10
23
일 접속,
https
://
oreil
.
ly
/
KP8kh
.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
자바스크립트 완벽 가이드

자바스크립트 완벽 가이드

David Flanagan, Han Seon- yong
잘되는 머신러닝 팀엔 이유가 있다

잘되는 머신러닝 팀엔 이유가 있다

데이비드 탄, 에이다 양, 데이비드 콜스

Publisher Resources

ISBN: 9791169212397