
Обучение с подкреплением для принятия решений в сложных условиях
681
RL: динамическим программированием, MC-обучением и TD-обучением. Мы отметили
тот факт, что алгоритм динамического программирования предполагает наличие пол-
ных знаний о динамике окружающей среды, что обычно неверно для большинства
реальных задач.
Затем вы увидели, как алгоритмы на основе MC и TD обучают модель путем взаимо-
действия агента с окружающей средой и генерации симулированного опыта. Изучив
теоретические основы, мы реализовали алгоритм Q-обучения в качестве подкатегории
off-policy алгоритма TD для решения задачи клетчатого мира. Наконец, мы