
394
Chapitre 10. Apprentissage par renforcement
Pac-Man, le nombre d’états possibles est largement supérieur au nombre d’atomes
sur notre planète. Il est donc absolument impossible de conserver une estimation de
chaque valeur Q.
La solution consiste à trouver une fonction Q
q
(s, a) qui permet d’obtenir une
approximation de la valeur Q de n’importe quel couple état-action (s, a) en utili-
sant un nombre de paramètres raisonnable (donnés par le vecteur de paramètres q).
Cette approche est appelée apprentissage Q par approximation. Pendant longtemps,
la recommandation a été d’employer des combinaisons linéaires de caractéristiques
forgées manuellement ...