
656 Глава 19
которое максимизирует взвешенную сумму следующей ценности состояния и его непо-
средственного вознаграждения (
()
i
rvsγ
′
+ ):
.
В этом случае максимальное обновленное значение для
1
()
i
vs
+
достигается за счет
выбора наилучшего действия из всех возможных, тогда как при оценке стратегии об-
новленное значение использовало взвешенную сумму по всем действиям.
Обозначения для табличных оценок функций ценности состояния
и ценности действия
В большинстве статей и учебников по RL строчные буквы ν
π
и q
π
используются для
обозначения соответственно истинных функций ценности состояния и ценности
действия как математических функций