
378
Chapitre 10. Apprentissage par renforcement
• info : ce dictionnaire spécique à l’environnement peut fournir des
informations supplémentaires qui pourront être utiles pour le débogage ou
l’entraînement. Par exemple, dans certains jeux, elles peuvent indiquer le
nombre de vies dont dispose l’agent.
Lorsque vous en avez terminé avec un environnement, vous devez invo-
quer sa méthode close() pour libérer les ressources qu’il occupait.
Implémentons une politique simple qui déclenche une accélération vers la
gauche lorsque le bâton penche vers la gauche, et vice versa. Ensuite, exécutons
cette politique pour voir quelle récompense moyenne elle permet ...