야 한다. 사고 과정의 전개는 이렇다. 먼저 특정 시간-의존 정책은 동역학 시스템의 동작에 영향
을 미치며 이는 결과적으로 발생 비용에 영향을 준다. 이 모든 요소들은 수학적인 개념들이다.
동적 계획법 분야(주어진 기간 동안 변화하는 시스템을 위한 최적의 전략을 찾는 것)에 대한
리처드 벨만의 공헌은 매우 중요하다. 잠시 후에 우리는 벨만의 최적성 원리
principle
of
optimality
를
접하게 되는데 사실 차원의 저주라는 용어를 만든 사람도 바로 벨만이다. 이 원칙은 고려하는
기간에 대한 최적화 문제를 더 작은 시간 간격의 더 작은 하위 문제로 분해하므로 이후에 재귀
적 방식으로 해결할 수 있어 대단히 유용하다.
13.9.1
결정론적 및 확률적 환경에서의 벨만 방정식
결정론적 동적 계획법 환경에는 다음과 같은 요소가 있다.
이산 시간 벨만 방정식
현재 시간에서 시작하여 최종 시간까지 최적의 전략(또는 제어 또는 정책)
a
k
를 현재 시간 스
텝
k
에서 선택하여 현재 비용과 다음 시간 스텝의 가치 함수의 합을 최소화함으로써 가치 함수
를 찾을 수 있다. 이는 재귀적이다.
,,,minValuexnCostx
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.