
10.12 La bibliothèque TF-Agents
417
© Dunod – Toute reproduction non autorisée est un délit.
de rejeu. Ce fonctionnement est essentiel pour l’entraînement d’une politique avec
état. Lorsque l’agent échantillonne une trajectoire, il doit replacer la politique dans
l’état où elle se trouvait au moment de l’étape temporelle correspondante.
Nous l’avons également expliqué précédemment, l’environnement peut
comprendre des lots, auquel cas le pilote passe à la politique une étape temporelle par
lots (c’est-à-dire un objet d’étape temporelle qui contient un lot d’observations, un
lot de types d’étapes, un lot de récompenses et un lot de rabais, tous ayant ...