Capítulo 8. Canalizaciones de característicaspor lotes
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los dos capítulos anteriores, hemos visto cómo implementar transformaciones de datos para crear características reutilizables y características específicas del modelo. Ahora veremos cómo poner en producción la creación de datos de características reutilizables mediante canalizaciones de características por lotes. Un canal de características por lotes es un programa que lee datos de fuentes de datos, aplica MIT a los datos extraídos y almacena los datos de características calculados en el almacén de características. El canal de características por lotes puede ejecutarse según una programación, por ejemplo, una vez por hora o por día, procesando de forma incremental los nuevos datos a medida que están disponibles para su procesamiento. También se puede ejecutar bajo demanda para transformar un gran volumen de datos históricos en características, en un proceso conocido como relleno.
El objetivo de un canal de características por lotes es automatizar la creación de características en lo que se conoce como procesamiento por lotes, que es eficiente en el uso de los recursos en comparación con el procesamiento de un solo registro a la vez. Por ejemplo, imagina comparar el tiempo que se tarda en vaciar un lavavajillas con un vaso o un plato a la vez con descargar lotes de platos y vasos. Del mismo modo, en el procesamiento ...