
390
Chapitre 10. Apprentissage par renforcement
Par exemple, lorsque l’agent se trouve dans l’état s
0
et choisit l’action a
1
, la somme
attendue des récompenses futures avec rabais est environ égale à 17,0.
Pour chaque état, examinons l’action qui possède la plus haute valeur Q :
>>> np.argmax(Q_values, axis=1) # action optimale pour chaque état
array([0, 0, 1])
On obtient ainsi la politique optimale pour ce MDP, avec un taux de rabais 0,90 :
dans l’état s
0
, choisir l’action a
0
, puis dans l’état s
1
, choisir l’action a
0
(rester sur
place), et dans l’état s
2
, choisir l’action a
1
(la seule possible). Si l’on augmente le
taux de rabais à 0,95, il est intéressant ...