
646 Глава 19
Фигурные скобки в этой записи применяются только для наглядности. Здесь S
t
и A
t
обо-
значают состояние и действие, предпринятое на временнóм шаге t, а R
t+1
— вознаграж-
дение, полученное от среды после выполнения действия A
t
. Кроме того, S
t
, R
t+1
и A
t
яв-
ляются зависящими от времени случайными величинами, которые получают значения
из предопределенных конечных множеств, обозначаемых
ˆ
,sS∈
ˆ
rR∈
и
ˆ
aA∈
соответ-
ственно. В MDP зависящие от времени случайные величины S
t
и R
t+1
имеют распреде-
ления вероятностей, которые зависят только от их значений на предыдущем временнóм
шаге t – 1. Распределение вероятностей для S
t+1
= s′ и