Kapitel 13. Erweiterte zustandsabhängige Operationen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Kapitel 8 zeigte wie einfach es ist, eine Aggregation in Structured Streaming mit den bestehenden Aggregationsfunktionen in den strukturierten Spark-APIs auszudrücken. Kapitel 12 zeigte die Effektivität der in Spark eingebauten Unterstützung für die Nutzung der eingebetteten Zeitinformationen im Ereignisstrom, die sogenannte Ereignis-Zeit-Verarbeitung.

Es gibt jedoch Fälle, in denen wir benutzerdefinierte Aggregationskriterien erfüllen müssen, die von den eingebauten Modellen nicht direkt unterstützt werden. In diesem Kapitel erfahren wir, wie wir erweiterte zustandsabhängige Operationen durchführen können, um diese Situationen zu bewältigen.

Structured Streaming bietet eine API, um beliebige zustandsabhängige Verarbeitung zu implementieren. Diese API wird durch zwei Operationen repräsentiert: mapGroupsWithState und flatMapGroupsWithState. Beide Operationen ermöglichen es uns, eine benutzerdefinierte Definition eines Zustands zu erstellen, die Regeln festzulegen, wie sich dieser Zustand entwickelt, wenn neue Daten im Laufe der Zeit eintreffen, zu bestimmen, wann er abläuft, und uns eine Methode zur Verfügung zu stellen, um diese Zustandsdefinition mit den eingehenden Daten zu kombinieren, um Ergebnisse zu erzeugen.

Der Hauptunterschied zwischen mapGroupsWithState und flatMapGroupsWithState besteht ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.