
374
Chapitre 10. Apprentissage par renforcement
recommandation, le placement de publicités dans les pages web ou encore le contrôle
de la zone d’une image sur laquelle un système de classication d’images doit focaliser
son attention.
10.2 RECHERCHE DE POLITIQUE
L’algorithme que l’agent logiciel utilise pour déterminer ses actions est appelé sa
politique (policy). La politique peut être un réseau de neurones qui prend en entrée
des observations et produit en sortie l’action à réaliser (voir la gure10.2).
Politique
Actions
Récompenses +
observations
Figure 10.2 – Apprentissage par renforcement qui utilise un réseau de neurones ...