Kapitel 21. Grundlagen des strukturierten Streaming

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Nachdem wir nun einen kurzen Überblick über die Stream-Verarbeitung gegeben haben, wollen wir uns direkt mit Structured Streaming beschäftigen. In diesem Kapitel werden wir noch einmal einige der wichtigsten Konzepte hinter Structured Streaming erläutern und sie dann mit einigen Codebeispielen anwenden, die zeigen, wie einfach das System zu benutzen ist.

Grundlagen des strukturierten Streamings

Structured Streaming ist, wie wir am Ende von Kapitel 20 besprochen haben, ein Stream Processing Framework, das auf der SQL-Engine von Spark aufbaut. Anstatt eine eigene API einzuführen, nutzt Structured Streaming die bestehenden strukturierten APIs in Spark (DataFrames, Datasets und SQL), sodass alle Operationen, die du von dort kennst, unterstützt werden. Nutzer/innen drücken eine Streaming-Berechnung genauso aus, wie sie eine Batch-Berechnung für statische Daten schreiben würden. Wenn du dies festlegst und ein Streaming-Ziel angibst, sorgt die Structured Streaming Engine dafür, dass deine Abfrage inkrementell und kontinuierlich ausgeführt wird, sobald neue Daten im System eintreffen. Diese logischen Anweisungen für die Berechnung werden dann mit der gleichen Catalyst-Engine ausgeführt, die in Teil II dieses Buches besprochen wird, einschließlich Abfrageoptimierung, Codegenerierung usw. Neben der zentralen ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.