book

AI를 위한 필수 수학

by 할라 넬슨, 안민재

August 2024

Beginner to intermediate

640 pages

14h 53m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

Content preview from AI를 위한 필수 수학

501

Chapter 11 -

확률

강화 학습

긍정적 또는 부정적 보상 (시행착오 )과 연관된 일련의 행동을 통해 최적의 전략을 찾는 것이

다. 에이전트는 여러 행동과 전이 상태

transition

state

중에서 선택할 수 있으며 전이 확률은 선택된

행동에 따라 다르다.

심층 강화 학습

deep

reinforcement

learning

강화 학습과 신경망을 결합한 것이다. 여기서 신경망은 관측치를 입력으로 받고 에이전트가 취

할 수 있는 각각의 행동에 대한 확률 (확률 분포 )을 출력한다. 에이전트는 추정된 확률에 따라

다음 행동을 무작위로 결정한다. 예를 들어 에이전트가 좌회전 또는 우회전 중 한 가지를 선택

할 수 있을 때 신경망이 좌회전에 대해

을 출력하면 에이전트는

의 확률로 좌회전하고

의 확률로 우회전한다.

강화 학습은 범용 인공지능으로 발전할 수 있는 큰 잠재력을 가지고 있다. 지능형 에이전트는

행동에 대한 결과가 직접적이지 않고 일련의 행동을 순차적으로 수행한 결과일 때 합리적인 의

사 결정을 내려야 한다. 이것이 바로 불확실성하에서의 추론의 전형이다.

11.7.1

강화 학습의 예

강화 학습의 예는 자율 주행 자동차, 추천 시스템, 실내 온도 조절기 (목표 온도를 유지하고 에

너지를 절약하면 긍정적인 보상을 받고 사람이 온도를 조절해야 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

개발자를 위한 필수 수학

토머스 닐드

개발자를 위한 실전 선형대수학

마이크 X 코헨

개발자를 위한 커리어 관리 핸드북

마이클 롭

개발자를 위한 머신러닝&딥러닝

로런스 모로니

Publisher Resources

ISBN: 9791169212588