Capítulo 9. Aprendizaje por refuerzo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Al igual que un humano, nuestros agentes aprenden por sí mismos a conseguir estrategias exitosas que conduzcan a las mayores recompensas a largo plazo. Este paradigma de aprendizaje por ensayo-error, únicamente a partir de recompensas o castigos, se conoce como aprendizaje por refuerzo.1
DeepMind (2016)
Los algoritmos de aprendizaje aplicados en los Capítulos 7 y 8 pertenecen a la categoría del aprendizaje supervisado. Estos métodos requieren que haya un conjunto de datos disponible con características y etiquetas que permita a los algoritmos aprender relaciones entre las características y las etiquetas para tener éxito en las tareas de estimación o clasificación. Como ilustra el sencillo ejemplo del Capítulo 1, el aprendizaje por refuerzo (RL) funciona de forma diferente. Para empezar, no es necesario proporcionar por adelantado un conjunto de datos completo de características y etiquetas. Los datos los genera más bien el agente de aprendizaje mientras interactúa con el entorno de interés. Este capítulo trata la RL con cierto detalle e introduce nociones fundamentales, así como uno de los algoritmos más populares utilizados en este campo: El aprendizaje Q (QL). Las redes neuronales no son sustituidas por los algoritmos de RL; en general, también desempeñan un papel importante en este contexto.
"Nociones fundamentales" explica ...
Get Inteligencia Artificial en Finanzas now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.