June 2020
Intermediate to advanced
768 pages
22h 23m
German
In diesem ersten Kapitel des dritten Teils des Buchs werden wir uns mit Alternativen befassen, einen Markov-Entscheidungsprozess (Markov Decision Process, MDP) zu handhaben, die eine ganze Familie von Verfahren bilden: Policy Gradients (PG).
Die Themen in diesem Kapitel:
Wir verschaffen uns einen Überblick über die Verfahren und ich erörtere, weshalb sie verwendet werden und welche Stärken und Schwächen sie im Vergleich zum bereits vertrauten Q-Learning aufweisen.
Wir betrachten zunächst ein einfaches PG-Verfahren namens REINFORCE und werden versuchen, es auf die CartPole-Umgebung anzuwenden, um es mit dem DQN-Ansatz zu vergleichen.
Bevor wir uns eingehender mit PGs befassen, ...