Capítulo 7. Transformacionesdependientes del modelo y bajo demanda
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este capítulo, analizaremos las transformaciones de datos en los procesos de entrenamiento e inferencia y cómo garantizar que las transformaciones en ambos procesos sean equivalentes. En el capítulo 2, introdujimos las transformaciones dependientes del modelo (MDT) como transformaciones de datos que se realizan sobre los datos después de que se hayan leído del almacén de características y que crean características específicas para un modelo. Existen dos grandes clases de MDT: las transformaciones de características (para características numéricas y categóricas) y las transformaciones que están estrechamente vinculadas a un solo modelo. Un ejemplo de las primeras es la codificación one-hot de variables categóricas, mientras que un ejemplo de las segundas es la codificación de texto para un LLM.
También analizamos cómo evitar el sesgo entre las MDT que se aplican por separado en los procesos de entrenamiento e inferencia. Esto no siempre es tan trivial como aplicar la misma función versionada en ambos procesos, ya que muchas MDT son dependientes del estado y requieren el mismo estado (las estadísticas de los datos de entrenamiento del modelo) como parámetro en ambos procesos. Comenzamos presentando ejemplos comunes de transformaciones de características y diferentes clases de transformaciones específicas ...