Capítulo 19. Aprendizaje por Refuerzo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El aprendizaje por refuerzo (RL) es uno de los campos más apasionantes del aprendizaje automático actual, y también uno de los más antiguos. Existe desde la década de 1950, y ha producido muchas aplicaciones interesantes a lo largo de los años.1 sobre todo en juegos (por ejemplo, TD-Gammon, un programa para jugar al backgammon) y en el control de máquinas, pero rara vez aparece en los titulares. Sin embargo, en 2013 se produjo una revolución, cuando los investigadores de una startup británica llamada DeepMind2 demostraron un sistema que podía aprender a jugar a casi cualquier juego de Atari desde cero.3 llegando a superar a los humanos4 en la mayoría de ellos, utilizando únicamente píxeles en bruto como datos de entrada y sin ningún conocimiento previo de las reglas de los juegos.5 Esta fue la primera de una serie de hazañas asombrosas:
-
En 2016, AlphaGo de DeepMind venció a Lee Sedol, un legendario jugador profesional del juego del Go; y en 2017, venció a Ke Jie, el campeón del mundo. Ningún programa se había acercado nunca a vencer a un maestro de este juego, y mucho menos al mejor.
-
En 2020, DeepMind lanzó AlphaFold, que puede predecir la forma 3D de las proteínas con una precisión sin precedentes. Esto cambia las reglas del juego en biología, química y medicina. De hecho, Demis Hassabis (fundador y director ejecutivo) ...