
10.11 Variantes de l’apprentissage Q profond
399
© Dunod – Toute reproduction non autorisée est un délit.
Nous n’avons pas afché la perte, car il s’agit d’un piètre indicateur de la perfor-
mance du modèle. La perte peut baisser alors que l’agent est mauvais. Par exemple,
si l’agent reste bloqué dans une petite région de l’environnement et si le DQN
commence à surajuster cette région. À l’inverse, la perte peut augmenter alors que
l’agent travaille mieux. Par exemple, si le DQN avait sous-estimé les valeurs Q et s’il
commence à améliorer ses prédictions, l’agent afchera de meilleures performances,
obtiendra plus de récompense, mais la perte peut ...