Capítulo 9. Funcionesde streaming y en tiempo real
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Si deseas implementar un sistema de ML en tiempo real escalable que tenga una frescura de características de solo unos segundos, necesitas canalizaciones de características de streaming. Una canalización de características de streaming es un programa de procesamiento de flujos que se ejecuta las 24 horas del día, los 7 días de la semana, consumiendo eventos de una fuente de datos de streaming, enriqueciendo potencialmente esos eventos con otras fuentes de datos, aplicando transformaciones de datos para crear características y escribiendo los datos de características de salida en un almacén de características.
Desde el punto de vista operativo, los flujos de trabajo en streaming tienen más en común con los microservicios que con los flujos de trabajo por lotes. Si un flujo de trabajo en streaming se interrumpe, a menudo es necesario solucionarlo de inmediato. No puedes esperar hasta la próxima ejecución por lotes programada para repararlo. Los programas de procesamiento de flujos dividen (particionan) el flujo infinito de eventos en grupos de eventos relacionados que se procesan juntos en ventanas. Una ventana es un conjunto de eventos limitado en el tiempo. Por ejemplo, un canal de streaming podría crear una ventana que agrupe las transacciones con tarjeta de crédito por número de tarjeta de crédito de la última ...