Kapitel 13: Asynchronous Advantage Actor Critic
Dieses Kapitel ist der Erweiterung des Actor-Critic-Verfahrens (A2C) gewidmet, das ich im letzten Kapitel ausführlich erörtert habe. Die Erweiterung ermöglicht echte asynchrone Interaktionen mit der Umgebung. Die vollständige Bezeichnung lautet Asynchronous Advantage Actor-Critic und wird üblicherweise als A3C abgekürzt. Es ist eins der von RL-Praktikern meistgenutzten Verfahren.
Wir werden nun zwei Ansätze betrachten, die dem einfachen A2C-Verfahren asynchrones Verhalten hinzufügen: Datenparallelität und Gradientenparallelität. Die beiden Verfahren weisen unterschiedliche Anforderungen und Eigenschaften auf und sind deshalb in unterschiedlichen Situationen anwendbar.
Die Themen in diesem Kapitel: ...
Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.