Kapitel 11: Eine Alternative: Policy Gradients
In diesem ersten Kapitel des dritten Teils des Buchs werden wir uns mit Alternativen befassen, einen Markov-Entscheidungsprozess (Markov Decision Process, MDP) zu handhaben, die eine ganze Familie von Verfahren bilden: Policy Gradients (PG).
Die Themen in diesem Kapitel:
Wir verschaffen uns einen Überblick über die Verfahren und ich erörtere, weshalb sie verwendet werden und welche Stärken und Schwächen sie im Vergleich zum bereits vertrauten Q-Learning aufweisen.
Wir betrachten zunächst ein einfaches PG-Verfahren namens REINFORCE und werden versuchen, es auf die CartPole-Umgebung anzuwenden, um es mit dem DQN-Ansatz zu vergleichen.
11.1 Werte und Policy
Bevor wir uns eingehender mit PGs befassen, ...
Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.