Capítulo 18. Aprendizaje por refuerzo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El aprendizaje por refuerzo (RL) es uno de los campos más apasionantes del aprendizaje automático actual, y también uno de los más antiguos. Existe desde la década de 1950, y ha producido muchas aplicaciones interesantes a lo largo de los años.1 sobre todo en juegos (por ejemplo, TD-Gammon, un programa para jugar al backgammon) y en el control de máquinas, pero rara vez aparece en los titulares. Sin embargo, en 2013 se produjo una revolución, cuando los investigadores de una startup británica llamada DeepMind demostraron un sistema que podía aprender a jugar a casi cualquier juego de Atari desde cero.2 llegando a superar a los humanos3 en la mayoría de ellos, utilizando únicamente píxeles en bruto como datos de entrada y sin ningún conocimiento previo de las reglas de los juegos.4 Esta fue la primera de una serie de hazañas asombrosas, que culminaron con la victoria de su sistema AlphaGo contra Lee Sedol, un legendario jugador profesional del juego del Go, en marzo de 2016, y contra Ke Jie, el campeón del mundo, en mayo de 2017. Ningún programa se había acercado nunca a vencer a un maestro de este juego, y mucho menos al campeón del mundo. Hoy en día, todo el campo del RL hierve de nuevas ideas, con una amplia gama de aplicaciones.
Entonces, ¿cómo consiguió DeepMind (comprada por Google por más de 500 millones de dólares en ...
Get Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow, 3ª edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.