Kapitel 12: Das Actor-Critic-Verfahren
Im letzten Kapitel haben wir eine Alternative zu den bekannten wertebasierten Verfahren untersucht, nämlich policybasierte Verfahren. Wir haben uns insbesondere auf ein Verfahren namens REINFORCE und dessen Varianten konzentriert, die eine diskontierte Belohnung verwenden, um den Gradienten der Policy zu erhalten (der die Richtung angibt, in die wir uns bewegen müssen, um die Policy zu verbessern). Beide Verfahren funktionieren bei einer kleinen CartPole-Umgebung gut, aber bei der komplizierteren Pong-Umgebung war die Konvergenz quälend langsam.
Als Nächstes erörtere ich eine Erweiterung des einfachen Policy-Gradient-Verfahrens, die Stabilität und Konvergenzgeschwindigkeit des neuen Verfahrens wie von Zauberhand ...
Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.