Skip to Main Content
Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch
book

Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch

by Maxim Lapan
June 2020
Intermediate to advanced content levelIntermediate to advanced
768 pages
22h 23m
German
mitp Verlag
Content preview from Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch

Kapitel 12: Das Actor-Critic-Verfahren

Im letzten Kapitel haben wir eine Alternative zu den bekannten wertebasierten Verfahren untersucht, nämlich policybasierte Verfahren. Wir haben uns insbesondere auf ein Verfahren namens REINFORCE und dessen Varianten konzentriert, die eine diskontierte Belohnung verwenden, um den Gradienten der Policy zu erhalten (der die Richtung angibt, in die wir uns bewegen müssen, um die Policy zu verbessern). Beide Verfahren funktionieren bei einer kleinen CartPole-Umgebung gut, aber bei der komplizierteren Pong-Umgebung war die Konvergenz quälend langsam.

Als Nächstes erörtere ich eine Erweiterung des einfachen Policy-Gradient-Verfahrens, die Stabilität und Konvergenzgeschwindigkeit des neuen Verfahrens wie von Zauberhand ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Deep Learning Kochbuch

Deep Learning Kochbuch

Douwe Osinga

Publisher Resources

ISBN: 9783747500385Publisher WebsiteOtherSupplemental Content