Capítulo 9. El streaming estructurado en acción

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora que ya conocemos mejor la API y el modelo de programación del streaming estructurado, en este capítulo crearemos un pequeño pero completo programa de streaming inspirado en el Internet de las Cosas (IoT).

Recursos en línea

Para este ejemplo, utilizaremos el cuaderno Structured-Streaming-in-action de los recursos en línea del libro, que se encuentran en https://github.com/stream-processing-with-spark.

Nuestro caso de uso será consumir un flujo de lecturas de sensores de Apache Kafka como fuente de flujo.

Vamos a correlacionar los datos entrantes de los sensores IoT con un archivo de referencia estático que contiene todos los sensores conocidos con su configuración. De este modo, enriquecemos cada registro entrante con los parámetros específicos del sensor que necesitamos para procesar los datos notificados. A continuación, guardamos todos los registros correctamente procesados en un archivo en formato Parquet.

Apache Kafka

Apache Kafka es una de las opciones más populares para un corredor de mensajería escalable que se utiliza para desacoplar a los productores de los consumidores en un sistema basado en eventos. Es una plataforma de streaming distribuido altamente escalable, basada en la abstracción de un registro de commit distribuido. Proporciona una funcionalidad similar a las colas de mensajes o a los sistemas ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.