
422
Chapitre 10. Apprentissage par renforcement
10.13 QUELQUES ALGORITHMES RL POPULAIRES
Avant de terminer ce chapitre, passons brièvement en revue quelques algorithmes
d’apprentissage par renforcement populaires :
•
Acteur-critique
Il s’agit d’une famille d’algorithmes RL qui combinent les gradients de
politique et les réseaux Q profonds. Un agent acteur-critique comprend
deux réseaux de neurones
: un réseau de politique et un DQN. Le DQN
est entraîné de manière normale, en apprenant à partir des expériences
de l’agent. Le réseau de politique apprend différemment (et beaucoupplus
rapidement) d’un algorithme PG normal. Au lieu d’estimer la valeur ...