
10.3 Introduction à OpenAI Gym
375
© Dunod – Toute reproduction non autorisée est un délit.
Comment pouvons-nous entraîner un tel robot ? Nous n’avons que deux para-
mètres de politique à ajuster
: la probabilité p et la plage de l’angle r. L’algorithme
d’apprentissage pourrait consister à essayer de nombreuses valeurs différentes pour
ces paramètres et à retenir la combinaison qui afche les meilleures performances
(voir la gure10.3). Voilà un exemple de recherche de politique, dans ce cas fondée sur
une approche par force brute. Cependant, lorsque l’espace de politiques est trop vaste
(ce qui est fréquent), une telle recherche du jeu de paramètres ...