Kapitel 17. Das Streaming-Programmiermodell von Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 16 hast du die zentrale Abstraktion von Spark Streaming, den DStream, kennengelernt und erfahren, wie sie ein Microbatch-Ausführungsmodell mit einer funktionalen Programmier-API verbindet, um eine vollständige Grundlage für die Stream-Verarbeitung auf Spark zu schaffen.

In diesem Kapitel erkunden wir die API der DStream-Abstraktion, die die Implementierung beliebig komplexer Geschäftslogik im Streaming-Verfahren ermöglicht. Aus der API-Perspektive delegieren DStreams einen Großteil ihrer Arbeit an die zugrunde liegende Datenstruktur in Spark, das Resilient Distributed Dataset (RDD). Bevor wir uns mit den Details der DStream-API befassen, machen wir einen kurzen Rundgang durch die RDD-Abstraktion. Ein gutes Verständnis des RDD-Konzepts und der API ist wichtig, um zu verstehen, wie DStreams funktionieren.

RDDs als zugrundeliegende Abstraktion für DStreams

Spark hat eine einzige Datenstruktur als Basiselement seiner API und Bibliotheken: RDD. Dabei handelt es sich um eine polymorphe Sammlung, die eine Tasche mit Elementen darstellt, in der die zu analysierenden Daten als ein beliebiger Scala-Typ repräsentiert werden. Der Datensatz wird auf die Executors des Clusters verteilt und auf diesen Maschinen verarbeitet.

Hinweis

Seit der Einführung von Spark SQL sind die Abstraktionen DataFrame ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.