Kapitel 5: Tabular Learning und das Bellman’sche Optimalitätsprinzip

Im letzten Kapitel haben Sie ein erstes Verfahren des Reinforcement Learnings (RL) kennengelernt, nämlich das Kreuzentropie-Verfahren, und dessen Stärken und Schwächen betrachtet. In diesem zweiten Teil des Buchs werden wir uns mit einer weiteren Gruppe von Verfahren befassen, den Q-Learning-Verfahren, die erheblich flexibler und leistungsfähiger sind. Dieses Kapitel schafft die Grundlagen, die diesen Verfahren gemeinsam sind.

Wir kommen auch auf die FrozenLake-Umgebung zurück und betrachten, wie neue Konzepte an diese Umgebung angepasst werden können und uns helfen, die Probleme mit der Unsicherheit einer Umgebung in den Griff zu bekommen. Die Themen in diesem Kapitel:

  • Überblick ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.