Kapitel 8. Strukturiertes Streaming

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In früheren Kapiteln hast du gelernt, wie man strukturierte APIs verwendet, um sehr große, aber begrenzte Datenmengen zu verarbeiten. Oft kommen die Daten jedoch kontinuierlich an und müssen in Echtzeit verarbeitet werden. In diesem Kapitel werden wir besprechen, wie dieselben strukturierten APIs auch für die Verarbeitung von Datenströmen verwendet werden können.

Die Entwicklung der Apache Spark Stream Processing Engine

Unter Stream Processing versteht man die kontinuierliche Verarbeitung von endlosen Datenströmen. Mit dem Aufkommen von Big Data haben sich Stream-Processing-Systeme von Ein-Knoten-Verarbeitungsmaschinen zu verteilten Mehr-Knoten-Verarbeitungsmaschinen gewandelt. Traditionell wurde die verteilte Stream-Verarbeitung mit einem Record-at-a-time-Verarbeitungsmodell implementiert, wie in Abbildung 8-1 dargestellt.

Traditional record-at-a-time processing model
Abbildung 8-1. Traditionelles Datensatz-zu-Zeit-Verarbeitungsmodell

Die Verarbeitungspipeline besteht aus einem gerichteten Graphen von Knoten, wie in Abbildung 8-1 dargestellt. Jeder Knoten empfängt kontinuierlich jeweils einen Datensatz, verarbeitet ihn und leitet die erzeugten Datensätze an den nächsten Knoten im Graphen weiter. Mit diesem Verarbeitungsmodell können sehr niedrige Latenzzeiten ...

Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.