Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC
In diesem Kapitel werden wir Ansätze betrachten, die verwendet werden, um die Stabilität des stochastischen Policy-Gradienten-Verfahrens zu verbessern. Es wurden einige Anstrengungen unternommen, um die Verbesserung der Policy stabiler zu machen, und wir werden uns auf drei Verfahren konzentrieren:
Proximal Policy Optimization (PPO)
Trust Region Policy Optimization (TRPO)
Advantage Actor-Critic (A2C) mit Kronecker-Factored Trust Region (ACKTR)
Darüber hinaus werden wir diese Verfahren einem relativ neuen Off-Policy-Verfahren namens Soft-Actor-Critic (SAC) gegenüberstellen, das zur Kategorie der in Kapitel 17 beschriebenen DDPG-Verfahren gehört. Für den Vergleich mit dem Standard-A2C-Verfahren ...
Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.