Kapitel 12: Das Actor-Critic-Verfahren

Im letzten Kapitel haben wir eine Alternative zu den bekannten wertebasierten Verfahren untersucht, nämlich policybasierte Verfahren. Wir haben uns insbesondere auf ein Verfahren namens REINFORCE und dessen Varianten konzentriert, die eine diskontierte Belohnung verwenden, um den Gradienten der Policy zu erhalten (der die Richtung angibt, in die wir uns bewegen müssen, um die Policy zu verbessern). Beide Verfahren funktionieren bei einer kleinen CartPole-Umgebung gut, aber bei der komplizierteren Pong-Umgebung war die Konvergenz quälend langsam.

Als Nächstes erörtere ich eine Erweiterung des einfachen Policy-Gradient-Verfahrens, die Stabilität und Konvergenzgeschwindigkeit des neuen Verfahrens wie von Zauberhand ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.