Planes de Aprendizaje Automático y Ciencia de Datos para Finanzas
by Hariom Tatsat, Sahil Puri, Brad Lookabaugh
Capítulo 9. Aprendizaje por refuerzo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los incentivos impulsan casi todo, y las finanzas no son una excepción. Los seres humanos no aprendemos de millones de ejemplos etiquetados. En cambio, solemos aprender de experiencias positivas o negativas que asociamos a nuestras acciones. Aprender de las experiencias y de las recompensas o castigos asociados es la idea central del aprendizaje por refuerzo (RL).1
El aprendizaje por refuerzo es un enfoque para entrenar a una máquina a encontrar el mejor curso de acción mediante políticas óptimas que maximicen las recompensas y minimicen los castigos.
Los algoritmos de RL que potenciaron a AlphaGo (el primer programa informático que derrotó a un jugador humano profesional de Go) también se están introduciendo en las finanzas. La idea principal del aprendizaje por refuerzo de maximizar las recompensas encaja a la perfección con varias áreas de las finanzas, como el comercio algorítmico y la gestión de carteras. El aprendizaje por refuerzo es especialmente adecuado para la negociación algorítmica, porque el concepto de un agente que maximiza el rendimiento en un entorno incierto y dinámico tiene mucho en común con un inversor o una estrategia de negociación que interactúa con los mercados financieros. Los modelos basados en el aprendizaje por refuerzo van un paso más allá de las estrategias de negociación basadas en la predicción ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access