Kapitel 11: Eine Alternative: Policy Gradients

In diesem ersten Kapitel des dritten Teils des Buchs werden wir uns mit Alternativen befassen, einen Markov-Entscheidungsprozess (Markov Decision Process, MDP) zu handhaben, die eine ganze Familie von Verfahren bilden: Policy Gradients (PG).

Die Themen in diesem Kapitel:

Wir verschaffen uns einen Überblick über die Verfahren und ich erörtere, weshalb sie verwendet werden und welche Stärken und Schwächen sie im Vergleich zum bereits vertrauten Q-Learning aufweisen.
Wir betrachten zunächst ein einfaches PG-Verfahren namens REINFORCE und werden versuchen, es auf die CartPole-Umgebung anzuwenden, um es mit dem DQN-Ansatz zu vergleichen.

11.1 Werte und Policy

Bevor wir uns eingehender mit PGs befassen, ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch by Maxim Lapan

Kapitel 11: Eine Alternative: Policy Gradients

11.1 Werte und Policy

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly