Apéndice D. Streaming con Streamz y Dask
Este libro se ha centrado en el uso de Dask para crear aplicaciones por lotes, en las que los datos se recogen del usuario o son proporcionados por él y luego se utilizan para realizar cálculos. Otro grupo importante de casos de uso son las situaciones que requieren que proceses los datos a medida que están disponibles.1 El procesamiento de datos a medida que están disponibles se denomina streaming.
Los pipelines de flujo de datos y los análisis de son cada vez más populares, ya que la gente tiene mayores expectativas de sus productos basados en datos. Piensa en cómo te sentirías si una transacción bancaria tardara semanas en liquidarse; te parecería arcaicamente lento. O si bloqueas a alguien en las redes sociales, esperas que ese bloqueo surta efecto inmediatamente. Aunque Dask destaca en el análisis interactivo, creemos que (actualmente) no destaca en las respuestas interactivas a las consultas de los usuarios.2
Los trabajos de streaming son diferentes de los trabajos por lotes en varios aspectos importantes. Suelen tener requisitos de tiempo de procesamiento más rápidos, y los propios trabajos a menudo no tienen un punto final definido (aparte de cuando se cierra la empresa o el servicio). Una situación en la que los pequeños trabajos por lotes pueden no ser suficientes es la publicidad dinámica (de decenas a cientos de milisegundos). Muchos otros problemas de datos pueden estar en la cuerda floja, como las recomendaciones, cuando quieres ...
Get Escalando Python con Dask now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.