Capítulo 10. Pipelinesde entrenamiento
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
El entrenamiento de modelos es el área más amplia y profunda de la ciencia de datos. Abordaremos los conceptos más importantes y los retos de escalabilidad que plantea el entrenamiento de toda la gama de modelos, desde los árboles de decisión con XGBoost hasta el Deep Learning a escala con Ray, pasando por el ajuste fino de los LLMs con adaptación de rango bajo (LoRA). Existen muchos recursos disponibles para profundizar en estos temas. Nosotros nos centraremos en dominar el yin y el yang del entrenamiento de modelos:
- IA centrada en modelos
El proceso iterativo de mejora del rendimiento del modelo mediante la experimentación con la arquitectura del modelo y el ajuste de los hiperparámetros
- IA centrada en datos
El proceso iterativo de selección de características y datos para mejorar el rendimiento del modelo
Para convertirte en un gran científico de datos, debes ser bueno tanto en el entrenamiento centrado en modelos como en el centrado en datos. Con nuestra filosofía yin y yang, cubriremos los elementos prácticos más importantes de los procesos de entrenamiento: elección del algoritmo de aprendizaje, conexión de etiquetas a características en un almacén de características, selección de características, creación de conjuntos de datos de entrenamiento, arquitectura de modelos, entrenamiento distribuido y evaluación de modelos. ...