Apéndice B. RL4J y el aprendizaje por refuerzo

Preliminares

Comenzamos este apéndice con una introducción al aprendizaje por refuerzo, seguida de una explicación detallada de Deep Q-Networks (DQNs) para entradas de píxeles, y concluimos mostrándote un ejemplo de RL4J. Empecemos por echar un vistazo a los conceptos básicos del aprendizaje por refuerzo.

Refuerzo aprendizaje es un área apasionante del aprendizaje automático. Es, básicamente, el aprendizaje de una estrategia eficiente en un entorno determinado. Informalmente, es muy similar al condicionamiento pavloviano: asignas una recompensa por un comportamiento determinado y, con el tiempo, los agentes aprenden a reproducir ese comportamiento para recibir más recompensas.

Proceso de Decisión de Markov

Formalmente, un entorno se define como un Proceso de Decisión de Markov (MDP). Detrás de este espeluznante nombre no hay otra cosa que la combinación de (5-tupla):

  • Un conjunto de estadosSS (por ejemplo, en ajedrez, un estado es la configuración del tablero)
  • Un conjunto de posibles accionesAA (en ajedrez, todas las jugadas posibles en todas las configuraciones posibles; por ejemplo, e4-e5).
  • La distribución condicional P(s′|s,a)P(s′|,a) del siguiente estado, dado un estado actual y una acción. (En un entorno determinista como el ajedrez, sólo hay un estado s′ con probabilidad 1, y todos los demás con probabilidad 0. Sin embargo, en un entorno estocástico (que implica aleatoriedad, como el lanzamiento de una moneda), ...

Get Aprendizaje profundo now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.