
382
Chapitre 10. Apprentissage par renforcement
10.6 GRADIENTS DE POLITIQUE
Comme nous l’avons indiqué précédemment, les algorithmes de gradients de poli-
tique (PG, Policy Gradients) optimisent les paramètres d’une politique en suivant les
gradients vers les récompenses les plus élevées. L’une des classes d’algorithmes PG
les plus répandus, appelés algorithmes REINFORCE, a été présentée
262
en 1992 par
Ronald Williams. En voici une variante fréquente :
•
Tout d’abord, on laisse la politique par réseau de neurones jouer plusieurs fois au
jeu et, à chaque étape, on calcule les gradients qui augmenteraient la probabilité
de l’action choisie, mais on ...