Capítulo 3. Modelos de cimentación de grandes lenguas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 2, aprendiste a realizar la ingeniería de prompts de y a aprovechar el aprendizaje en contexto utilizando un modelo base existente. En este capítulo, explorarás cómo se entrena un modelo base, incluidos los objetivos de entrenamiento y los conjuntos de datos. Aunque no es habitual entrenar tu propio modelo base desde cero, merece la pena comprender cuánto tiempo, esfuerzo y complejidad se requieren para realizar este proceso de cálculo intensivo.
Entrenar un modelo de lenguaje grande de miles de millones de parámetros desde cero, lo que se denomina preentrenamiento, requiere millones de horas de cálculo en la GPU, billones de tokens de datos y mucha paciencia. En este capítulo, aprenderás las leyes empíricas de escalado descritas en el popular artículo Chinchilla para el preentrenamiento de modelos.1
Al entrenar el modelo BloombergGPT, por ejemplo, los investigadores utilizaron las leyes de escalado de Chinchilla como punto de partida, pero aun así fue necesario mucho ensayo y error, como se explica en el documento BloombergGPT.2 Con un presupuesto de cálculo de 1,3 millones de horas GPU, BloombergGPT se entrenó con un gran clúster distribuido de instancias GPU utilizando Amazon SageMaker.
Nota
Este capítulo se sumerge en profundidad en el preentrenamiento de modelos de fundamentos generativos, ...