Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC

In diesem Kapitel werden wir Ansätze betrachten, die verwendet werden, um die Stabilität des stochastischen Policy-Gradienten-Verfahrens zu verbessern. Es wurden einige Anstrengungen unternommen, um die Verbesserung der Policy stabiler zu machen, und wir werden uns auf drei Verfahren konzentrieren:

Proximal Policy Optimization (PPO)
Trust Region Policy Optimization (TRPO)
Advantage Actor-Critic (A2C) mit Kronecker-Factored Trust Region (ACKTR)

Darüber hinaus werden wir diese Verfahren einem relativ neuen Off-Policy-Verfahren namens Soft-Actor-Critic (SAC) gegenüberstellen, das zur Kategorie der in Kapitel 17 beschriebenen DDPG-Verfahren gehört. Für den Vergleich mit dem Standard-A2C-Verfahren ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch by Maxim Lapan

Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly