Parte I. Le basi
La prima parte del libro tratta le basi dell'apprendimento per rinforzo e fornisce informazioni di base. Si compone di tre capitoli:
-
Il capitolo 1 si concentra sull'apprendimento attraverso l'interazione con quattro esempi principali: la corrispondenza delle probabilità, l'aggiornamento bayesiano, l'apprendimento per rinforzo (RL) e l'apprendimento Q profondo (DQL).
-
Il Capitolo 2 introduce i concetti della programmazione dinamica (DP) e discute il DQL come approccio alle soluzioni approssimate dei problemi di DP. Il tema principale è la derivazione di politiche ottimali per massimizzare una data funzione obiettivo attraverso l'esecuzione di una sequenza di azioni e l'aggiornamento iterativo della politica ottimale. Il DQL è illustrato sulla base del gioco CartPole del pacchetto Gymnasium di Python.
-
Il Capitolo 3 sviluppa un primo ambiente
Financeche permette all'agente DQL del Capitolo 2 di imparare un gioco di previsione finanziaria. Sebbene l'ambiente replichi formalmente l'API del CartPole, manca di alcune caratteristiche importanti che sono necessarie per applicare con successo la RL.