Kapitel 16. Einführung in Spark Streaming

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Spark Streaming war das erste Stream-Processing-Framework, das auf den verteilten Verarbeitungsfunktionen von Spark aufbaute. Heute bietet es eine ausgereifte API, die in der Branche weit verbreitet ist, um große Datenströme zu verarbeiten.

Spark ist von Haus aus ein System, das sehr gut darin ist, Daten zu verarbeiten, die über einen Cluster von Rechnern verteilt sind. Sparks Kernabstraktion, das Resilient Distributed Dataset (RDD), und seine fließende funktionale API ermöglichen die Erstellung von Programmen, die verteilte Daten als eine Sammlung behandeln. Diese Abstraktion ermöglicht es uns, über die Datenverarbeitungslogik in Form einer Transformation des verteilten Datensatzes nachzudenken. Auf diese Weise wird die kognitive Belastung reduziert, die bisher für die Erstellung und Ausführung von skalierbaren und verteilten Datenverarbeitungsprogrammen erforderlich war.

Spark Streaming wurde unter einer einfachen, aber leistungsstarken Prämisse entwickelt: Die verteilten Rechenfähigkeiten von Spark sollten auf die Stream-Verarbeitung angewendet werden, indem ein kontinuierlicher Datenstrom in diskrete Datensammlungen umgewandelt wird, mit denen Spark arbeiten kann.

Wie in Abbildung 16-1 zu sehen ist, besteht die Hauptaufgabe von Spark Streaming darin, Daten aus dem Stream zu nehmen, sie in kleine Batches ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.