Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC

In diesem Kapitel werden wir Ansätze betrachten, die verwendet werden, um die Stabilität des stochastischen Policy-Gradienten-Verfahrens zu verbessern. Es wurden einige Anstrengungen unternommen, um die Verbesserung der Policy stabiler zu machen, und wir werden uns auf drei Verfahren konzentrieren:

  • Proximal Policy Optimization (PPO)

  • Trust Region Policy Optimization (TRPO)

  • Advantage Actor-Critic (A2C) mit Kronecker-Factored Trust Region (ACKTR)

Darüber hinaus werden wir diese Verfahren einem relativ neuen Off-Policy-Verfahren namens Soft-Actor-Critic (SAC) gegenüberstellen, das zur Kategorie der in Kapitel 17 beschriebenen DDPG-Verfahren gehört. Für den Vergleich mit dem Standard-A2C-Verfahren ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.