Capítulo 15. Transformadores para el Procesamiento del Lenguaje Natural y los Chatbots
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En un artículo histórico de 2017 titulado "Attention Is All You Need".1 un equipo de investigadores de Google propuso una novedosa arquitectura de red neuronal denominada Transformer, que mejoraba significativamente el estado del arte en traducción automática neuronal (NMT). En resumen, la arquitectura Transformer es simplemente un modelo codificador-decodificador, muy parecido al que construimos en el Capítulo 14 para la traducción inglés-español, y puede utilizarse exactamente de la misma manera (véase la Figura 15-1):
-
El texto de origen se introduce en el codificador, que genera incrustaciones contextualizadas (una por token).
-
A continuación, el resultado del codificador se envía al descodificador, junto con el texto traducido hasta el momento (empezando por un token de inicio de secuencia).
-
El descodificador predice el siguiente token para cada token de entrada.
-
El último token obtenido por el descodificador se añade a la traducción.
-
Los pasos 2 a 4 se repiten una y otra vez para producir la traducción completa, un token más cada vez, hasta que se genera un token de fin de secuencia. Durante el entrenamiento, ya tenemos la traducción completa -es el objetivo-, por lo que se introduce en el descodificador en el paso 2 (empezando con un token de inicio de secuencia), ...