13 Deep Reinforcement Learning
1.Ein Bildschirmfoto des tatsächlichen Cart-Pole-Spiels ist in Abbildung 4–13a zu sehen.
2.Gleiches Prinzip wie bei Radar, allerdings mit Laser statt Ton.
4.Die Markow-Eigenschaft wird vielen Finanzhandelsstrategien zugrunde gelegt. Eine Handelsstrategie könnte zum Beispiel den Preis aller Aktien heranziehen, die am Ende eines Handelstages an einer bestimmten Börse vorliegen, während die Aktienpreise an einem anderen, vorangegangenen Tag nicht betrachtet werden.
5.Das stimmt zwar beim Reinforcement Learning im Allgemeinen, doch das Cart-Pole-Spiel im Besonderen stellt eine relativ einfache Umgebung dar, die vollständig deterministisch ist. Beim Cart-Pole-Spiel ergibt das exakt gleiche Zustands-Aktions-Paar ...
Get Deep Learning illustriert now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.