Skip to Main Content
Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch
book

Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch

by Maxim Lapan
June 2020
Intermediate to advanced content levelIntermediate to advanced
768 pages
22h 23m
German
mitp Verlag
Content preview from Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch

Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC

In diesem Kapitel werden wir Ansätze betrachten, die verwendet werden, um die Stabilität des stochastischen Policy-Gradienten-Verfahrens zu verbessern. Es wurden einige Anstrengungen unternommen, um die Verbesserung der Policy stabiler zu machen, und wir werden uns auf drei Verfahren konzentrieren:

  • Proximal Policy Optimization (PPO)

  • Trust Region Policy Optimization (TRPO)

  • Advantage Actor-Critic (A2C) mit Kronecker-Factored Trust Region (ACKTR)

Darüber hinaus werden wir diese Verfahren einem relativ neuen Off-Policy-Verfahren namens Soft-Actor-Critic (SAC) gegenüberstellen, das zur Kategorie der in Kapitel 17 beschriebenen DDPG-Verfahren gehört. Für den Vergleich mit dem Standard-A2C-Verfahren ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Deep Learning Kochbuch

Deep Learning Kochbuch

Douwe Osinga

Publisher Resources

ISBN: 9783747500385Publisher WebsiteOtherSupplemental Content