Los Tres Pasos del Entrenamiento LLM: Preentrenamiento, Ajuste Supervisado y Ajuste de PreferenciasAjuste fino supervisado (SFT)Ajuste fino completoAjuste fino eficiente de parámetros (PEFT)Ajuste de instrucciones con QLoRAPlantilla de datos de instrucciónCuantificación del modeloConfiguración LoRAConfiguración de la formaciónFormaciónFusionar pesosEvaluación de modelos generativosMétricas a nivel de palabraPuntos de referenciaTablas de clasificaciónEvaluación automatizadaEvaluación humanaPreferencia-Sintonización / Alineación / RLHFAutomatización de la evaluación de preferencias mediante modelos de recompensaEntradas y salidas de un modelo de recompensaEntrenar un modelo de recompensaModelo de formación sin recompensaAjuste de preferencias con OPDPlantilla de datos de alineaciónCuantificación del modeloConfiguración de la formaciónFormaciónResumen