
Обучение с подкреплением для принятия решений в сложных условиях
661
19.4. Реализация первого алгоритма RL
В этом разделе мы рассмотрим реализацию алгоритма Q-обучения для решения задачи
клетчатого мира Grid World (клетчатый мир — это двумерная среда, состоящая из
квадратных ячеек, в которой агент движется в четырех направлениях, чтобы получить
как можно больше вознаграждений)
3
. Для решения этой задачи мы воспользуемся на-
бором инструментов OpenAI Gym.
19.4.1. Знакомство с набором инструментов OpenAI Gym
OpenAI Gym — это специализированный набор инструментов для облегчения разра-
ботки моделей RL. OpenAI Gym поставляется ...