Kapitel 9. Strukturiertes Streaming in Aktion
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Jetzt wir ein besseres Verständnis der Structured Streaming API und des Programmiermodells haben, erstellen wir in diesem Kapitel ein kleines, aber vollständiges Internet of Things (IoT)-inspiriertes Streaming-Programm.
Online-Ressourcen
Für dieses Beispiel verwenden wir das Structured-Streaming-in-action
Notizbuch in den Online-Ressourcen des Buches, die du unter https://github.com/stream-processing-with-spark findest.
Unser Anwendungsfall besteht darin, einen Strom von Sensormesswerten aus Apache Kafka als Streaming-Quelle zu nutzen.
Wir werden eingehende IoT-Sensordaten mit einer statischen Referenzdatei korrelieren, die alle bekannten Sensoren mit ihrer Konfiguration enthält. Auf diese Weise reichern wir jeden eingehenden Datensatz mit spezifischen Sensorparametern an, die wir zur Verarbeitung der gemeldeten Daten benötigen. Anschließend speichern wir alle korrekt verarbeiteten Datensätze in einer Datei im Parquet-Format.
Apache Kafka
Apache Kafka ist eine der beliebtesten Optionen für einen skalierbaren Messaging-Broker, der zur Entkopplung von Produzenten und Konsumenten in einem ereignisgesteuerten System eingesetzt wird. Es handelt sich um eine hochskalierbare verteilte Streaming-Plattform, die auf der Abstraktion eines verteilten Commit-Logs basiert. Sie bietet ähnliche Funktionen wie Nachrichtenwarteschlangen ...
Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.