Capítulo 4. Arquitecturas y objetivos de aprendizaje
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los Capítulos 2 y3, hemos tratado algunos de los ingredientes clave que intervienen en la creación de un modelo lingüístico: los conjuntos de datos de entrenamiento, y el vocabulario y el tokenizador. A continuación, vamos a completar el puzzle conociendo los propios modelos, las arquitecturas que los sustentan y sus objetivos de aprendizaje.
En este capítulo, aprenderemos la composición de los modelos de lenguaje y su estructura. Los modelos de lenguaje actuales se basan predominantemente en la arquitectura Transformer, por lo que dedicaremos la mayor parte de nuestra atención a comprenderla, repasando en detalle cada componente de la arquitectura. En los últimos años se han propuesto diversas variantes y alternativas a la arquitectura Transformer original. Repasaremos las más prometedoras, incluidos los modelos de Mezcla de Expertos (MoE). También examinaremos los objetivos de aprendizaje más comunes sobre los que se entrenan los modelos lingüísticos, incluida la predicción del siguiente token. Por último, pondremos en práctica los conceptos de los tres últimos capítulos aprendiendo a preentrenar un modelo lingüístico desde cero.
Preliminares
Casi todos los modelos lingüísticos contemporáneos se basan en redes neuronales, compuestas por unidades de procesamiento llamadas neuronas. Aunque las redes neuronales ...