Capitolo 10. Osservazioni conclusive
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Il tempo e l'incertezza sono gli elementi centrali che influenzano il comportamento economico finanziario. È la complessità della loro interazione che rappresenta una sfida intellettuale e un'emozione per lo studio della finanza. Analizzare correttamente gli effetti di questa interazione richiede spesso strumenti analitici sofisticati.
Merton (1990)
L'apprendimento per rinforzo (RL) è senza dubbio diventato un algoritmo e un approccio centrale e importante nell'apprendimento automatico (ML) e nell'IA in generale. Esistono molte varianti dell'idea algoritmica di base, una panoramica delle quali si trova in Sutton e Barto (2018). Questo libro si concentra principalmente sul deep Q-learning (DQL). L'idea fondamentale del DQL è che l'agente impara una politica di azione ottimale che assegna un valore a ogni combinazione stato-azione fattibile. Più alto è il valore, migliore è l'azione data da un determinato stato. Nel Capitolo 9 il libro fornisce anche un esempio di un semplice algoritmo di critica dell'attore. In questo caso, l'agente ha la politica di azione ottimale separata dalla funzione di valore. Il cuore di questi algoritmi sono le reti neurali profonde (DNN) che vengono utilizzate per approssimare le politiche d'azione ottimali e, nel caso degli algoritmi actor-critic, anche le funzioni di ...