Capítulo 2. Modelo de procesamiento de flujos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En, este capítulo tiende un puente entre la noción de flujo de datos -una fuente de datos "en movimiento"- y las primitivas y construcciones del lenguaje de programación que nos permiten expresar el procesamiento de flujos.

Queremos describir primero conceptos sencillos y fundamentales antes de pasar a cómo los representa Apache Spark. En concreto, queremos cubrir lo siguiente como componentes del procesamiento de flujos:

  • Fuentes de datos

  • Canalizaciones de procesamiento de flujos

  • Sumideros de datos

A continuación, mostramos cómo estos conceptos se corresponden con el modelo específico de procesamiento de flujos implementado por Apache Spark.

A continuación, caracterizamos el procesamiento de flujos con estado, un tipo de procesamiento de flujos que requiere la contabilidad de cálculos pasados en forma de algún estado intermedio necesario para procesar nuevos datos. Por último, consideramos los flujos de eventos con marca de tiempo y las nociones básicas implicadas en abordar preocupaciones como "¿qué hago si el orden y la puntualidad de la llegada de esos eventos no coinciden con las expectativas?".

Fuentes y sumideros

Como hemos mencionado antes, Apache Spark, en cada uno de sus dos sistemas de streaming -Structured Streaming y Spark Streaming- es un marco de programación con API en los lenguajes de programación ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.