
10.9 Apprentissage Q
391
© Dunod – Toute reproduction non autorisée est un délit.
Une façon plus concise d’écrire la première forme de cette équation se fonde sur
la notation
, qui signie a
k+1
← (1 – α) ⋅ a
k
+ α ⋅ b
k
. La première ligne de l’équa-
tion10.4 peut donc être récrite ainsi
:
s+
.
L’apprentissage TD présente de nombreuses similitudes avec la descente
de gradient stochastique, notamment son traitement d’un échantillon à la
fois. À l’instar de cette descente de gradient, il ne peut réellement conver
-
ger que si l’on réduit progressivement le taux d’apprentissage (sinon il
oscillera en permanence autour des valeurs Q optimales). ...