
424
Chapitre 10. Apprentissage par renforcement
Nous avons abordé de nombreux sujets dans ce chapitre : gradients de politique,
chaînes de Markov, processus de décision markoviens, apprentissage Q, appren-
tissage Q par approximation et apprentissage Q profond, ainsi que ses principales
variantes (cibles de la valeur Q xées, DQN double, duel de DQN et rejeu avec
expériences à priorités). Nous avons expliqué comment utiliser TF-Agents de façon
à entraîner des agents à grande échelle, et, pour nir, nous avons décrit brièvement
d’autres algorithmes répandus. L’apprentissage par renforcement est un domaine
vaste et passionnant, avec de nouvelles ...