Capítulo 21. Procesamiento de flujos basado en el tiempo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Como hemos insinuado anteriormente, y como hemos mostrado en transformaciones anteriores, Spark Streaming ofrece la capacidad de construir agregados de datos basados en el tiempo. En contraste con el Streaming Estructurado, las capacidades out-of-the-box de Spark Streaming en esta área se limitan a tiempo de procesamiento, que, si recuerdas de "El efecto del tiempo", es el tiempo en que el motor de streaming procesa los eventos.
En este capítulo, vamos a examinar las distintas capacidades de agregación de Spark Streaming. Aunque están limitadas al dominio del tiempo de procesamiento, proporcionan una rica semántica y pueden ser útiles para procesar datos de forma escalable y con recursos limitados.
Agregaciones de ventanas
Agregación es un patrón frecuente en el procesamiento de datos de flujo, que refleja la diferencia de preocupaciones de los productores de los datos (en la entrada) y los consumidores de datos (en la salida).
Como ya se ha comentado en "Agregaciones por ventanas", el concepto de ventana de datos en el tiempo puede ayudarnos a crear agregaciones que abarquen grandes periodos de tiempo. La API de Spark Streaming ofrece definiciones para los dos conceptos genéricos de ventana presentados en esa sección, ventanas giratorias y deslizantes, y proporciona funciones de reducción especializadas ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.