Kapitel 23: AlphaGo Zero
In diesem Kapitel werde ich damit fortfahren, modellbasierte Verfahren zu erörtern, und wir werden die Fälle untersuchen, in denen ein Umgebungsmodell verfügbar ist, die Umgebung allerdings von zwei rivalisierenden Parteien genutzt wird. Diese Situation ist typisch für Brettspiele, bei denen die Spielregeln feststehen und sämtliche Positionen der Spielsteine beobachtbar sind und wir es mit einem Gegenspieler zu tun haben, der uns daran hindern möchte, das Spiel zu gewinnen.
Kürzlich hat DeepMind einen sehr eleganten Ansatz zur Lösung solcher Aufgaben vorgestellt, bei dem keine weiteren Kenntnisse über das Spiel erforderlich sind, sondern der Agent seine Policy allein dadurch verbessert, dass er gegen sich selbst spielt. ...
Get Deep Reinforcement Learning -- Das umfassende Praxis-Handbuch now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.