
386
Chapitre 10. Apprentissage par renforcement
Le simple algorithme des gradients de politique que nous venons d’entraîner a
résolu le problème CartPole, mais son adaptation à des tâches plus grandes et plus
complexes n’est pas satisfaisante. Son efcacité d’échantillonnage est très mauvaise, ce
qui signie qu’il lui faut explorer le jeu pendant très longtemps avant de pouvoir vrai-
ment progresser. Cela vient du fait qu’il doit exécuter plusieurs épisodes pour estimer
le bénéce de chaque action. Toutefois, il peut servir de base à des algorithmes plus
puissants, comme des algorithmes acteur-critique (que nous verrons brièvement à la
n de ce ...