
Обучение с подкреплением для принятия решений в сложных условиях
651
.
В реальности мы обычно находим значения функции ценности, используя переводные
таблицы, поэтому нам не нужно повторно вычислять ее несколько раз. (Это особен-
ность динамического программирования.) Например, на практике, когда мы оцениваем
функцию ценности с помощью таких табличных методов, мы сохраняем все значения
состояния в таблице, обозначаемой V(s). В коде на языке Python это может быть список
или массив NumPy, индексы которого относятся к разным состояниям, или это может
быть словарь Python, где ключи словаря сопоставляют состояния с соответствующими
значениями ...