Kapitel 4: Das Kreuzentropie-Verfahren

Im letzten Kapitel haben Sie PyTorch kennengelernt. In diesem Kapitel werde ich den ersten Teil des Buchs zusammenfassen und wir werden uns mit einem der RL-Verfahren beschäftigen, dem Kreuzentropie-Verfahren.

Trotz der Tatsache, dass es nicht so bekannt ist wie andere Werkzeuge des RL-Praktikers, wie etwa Deep Q-Netze (DQN) oder das Advantage-Actor-Critic-Verfahren, besitzt das Kreuzentropie-Verfahren seine eigenen Stärken. Zum einen ist es wirklich einfach, deshalb ist es anschaulich und gut zu verstehen. Die Implementierung in PyTorch umfasst beispielsweise weniger als 100 Zeilen Code.

Zum anderen konvergiert es gut. In einfachen Umgebungen, in denen keine komplexe, aus mehreren Schritten bestehende ...

Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.