Kapitel 22. Ereignisgesteuerte und zustandsabhängige Verarbeitung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 21 wurden die Kernkonzepte und die grundlegenden APIs von behandelt; in diesem Kapitel geht es um die Ereigniszeit und die zustandsabhängige Verarbeitung. Die ereignisgesteuerte Verarbeitung ist ein heißes Thema, weil wir Informationen in Bezug auf den Zeitpunkt analysieren, zu dem sie erstellt und nicht verarbeitet wurden. Der Grundgedanke bei dieser Art der Verarbeitung ist, dass Spark während der Laufzeit des Auftrags relevante Zustände aufrechterhält, die es im Laufe des Auftrags aktualisieren kann, bevor es sie an die Senke ausgibt.

Bevor wir mit der Arbeit am Code beginnen, um zu zeigen, dass sie funktionieren, wollen wir diese Konzepte näher erläutern.

Ereignis Zeit

Die Ereigniszeit ist ein wichtiges Thema, das diskret behandelt werden muss, da die DStream-API von Spark keine Verarbeitungsinformationen in Bezug auf die Ereigniszeit unterstützt. Auf einer höheren Ebene gibt es in Stream-Processing-Systemen effektiv zwei relevante Zeitpunkte für jedes Ereignis: den Zeitpunkt, an dem es tatsächlich eingetreten ist (Ereigniszeit), und den Zeitpunkt, an dem es verarbeitet wurde oder das Stream-Processing-System erreicht hat (Verarbeitungszeit).

Zeit der Veranstaltung

Das Ereignis Zeit ist die Zeit, die in den Daten selbst eingebettet ist. Meistens handelt es sich dabei ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.