Procesamiento del Lenguaje Natural con Transformadores, Edición Revisada
by Lewis Tunstall, Leandro von Werra, Thomas Wolf
Capítulo 1. Hola Transformers
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En 2017, investigadores de Google publicaron un artículo en el que proponían una novedosa arquitectura de red neuronal para el modelado de secuencias.1 Denominada Transformer, esta arquitectura superó a las redes neuronales recurrentes (RNN) en tareas de traducción automática, tanto en calidad de traducción como en coste de entrenamiento.
Paralelamente, un método eficaz de aprendizaje por transferencia llamado ULMFiT demostró que el entrenamiento de redes de memoria a corto plazo (LSTM) en un corpus muy grande y diverso podía producir clasificadores de texto de última generación con pocos datos etiquetados.2
Estos avances fueron los catalizadores de dos de los transformadores actuales más conocidos: el Transformador Preentrenado Generativo (GPT)3 y las Representaciones Codificadoras Bidireccionales de Transformadores (BERT).4 Al combinar la arquitectura del Transformador con el aprendizaje no supervisado, estos modelos eliminaron la necesidad de entrenar arquitecturas específicas de tareas desde cero y superaron casi todos los puntos de referencia de la PNL por un margen significativo. Desde el lanzamiento de GPT y BERT, ha surgido un zoo de modelos de transformadores; en laFigura 1-1 se muestra una cronología de las entradas más destacadas.
Figura 1-1. La línea de tiempo de los transformadores
Pero nos estamos adelantando. Para ...