Kapitel 5: Tabular Learning und das Bellman’sche Optimalitätsprinzip
Im letzten Kapitel haben Sie ein erstes Verfahren des Reinforcement Learnings (RL) kennengelernt, nämlich das Kreuzentropie-Verfahren, und dessen Stärken und Schwächen betrachtet. In diesem zweiten Teil des Buchs werden wir uns mit einer weiteren Gruppe von Verfahren befassen, den Q-Learning-Verfahren, die erheblich flexibler und leistungsfähiger sind. Dieses Kapitel schafft die Grundlagen, die diesen Verfahren gemeinsam sind.
Wir kommen auch auf die FrozenLake-Umgebung zurück und betrachten, wie neue Konzepte an diese Umgebung angepasst werden können und uns helfen, die Probleme mit der Unsicherheit einer Umgebung in den Griff zu bekommen. Die Themen in diesem Kapitel:
Überblick ...
Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.