June 2020
Intermediate to advanced
768 pages
22h 23m
German
In diesem Kapitel werden wir Ansätze betrachten, die verwendet werden, um die Stabilität des stochastischen Policy-Gradienten-Verfahrens zu verbessern. Es wurden einige Anstrengungen unternommen, um die Verbesserung der Policy stabiler zu machen, und wir werden uns auf drei Verfahren konzentrieren:
Proximal Policy Optimization (PPO)
Trust Region Policy Optimization (TRPO)
Advantage Actor-Critic (A2C) mit Kronecker-Factored Trust Region (ACKTR)
Darüber hinaus werden wir diese Verfahren einem relativ neuen Off-Policy-Verfahren namens Soft-Actor-Critic (SAC) gegenüberstellen, das zur Kategorie der in Kapitel 17 beschriebenen DDPG-Verfahren gehört. Für den Vergleich mit dem Standard-A2C-Verfahren ...