Kapitel 11: Eine Alternative: Policy Gradients

In diesem ersten Kapitel des dritten Teils des Buchs werden wir uns mit Alternativen befassen, einen Markov-Entscheidungsprozess (Markov Decision Process, MDP) zu handhaben, die eine ganze Familie von Verfahren bilden: Policy Gradients (PG).

Die Themen in diesem Kapitel:

  • Wir verschaffen uns einen Überblick über die Verfahren und ich erörtere, weshalb sie verwendet werden und welche Stärken und Schwächen sie im Vergleich zum bereits vertrauten Q-Learning aufweisen.

  • Wir betrachten zunächst ein einfaches PG-Verfahren namens REINFORCE und werden versuchen, es auf die CartPole-Umgebung anzuwenden, um es mit dem DQN-Ansatz zu vergleichen.

11.1  Werte und Policy

Bevor wir uns eingehender mit PGs befassen, ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.