
504
Annexe A Solutions des exercices
nouvelles manières de recevoir des récompenses et exploiter
les sources de récompenses qu’il connaît déjà. À l’inverse, les
systèmes d’apprentissage supervisé ou non supervisé n’ont pas à
s’occuper de l’exploration et exploitent simplement les données
d’entraînement qui leur sont fournies.
– Dans l’apprentissage supervisé ou non supervisé, les instances
d’entraînement sont généralement indépendantes (en fait, elles
sont souvent mélangées). Dans l’apprentissage par renforcement,
des observations consécutives ne sont généralement pas
indépendantes. Puisqu’un agent peut rester un certain temps
dans la même région ...