Kapitel 83. Die Zeit (Semantik) wird nicht warten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Marta Paes Moreira und Fabian Hueske
Datenpipelines entwickeln sich von der Speicherung kontinuierlich eingehender Daten und deren Verarbeitung in begrenzten Stapeln hin zu Streaming-Ansätzen, die kontinuierlich unbegrenzte Datenströme aufnehmen und verarbeiten. In der Regel besteht das Ziel darin, die Latenzzeit zwischen dem Zeitpunkt des Dateneingangs und der Verarbeitung zu verringern.
Ein wichtiger Unterschied zwischen Stapel- und Stream-Verarbeitung ist der Begriff der Vollständigkeit. Bei der Stapelverarbeitung werden die Daten immer als vollständig betrachtet (so wie sie durch die Eingabe definiert sind), aber bei der Stream-Verarbeitung müssen Anwendungen über die Vollständigkeit ihrer Eingabe nachdenken, wenn sie unbegrenzte Datenströme aufnehmen. Eine häufige Aufgabe ist zum Beispiel die Berechnung von Aggregaten für regelmäßige Zeitintervalle, z. B. das Zählen der Klickereignisse pro Stunde. Wenn du eine solche Anwendung zur Verarbeitung von Datenströmen implementierst, musst du entscheiden, wann du mit dem Zählen beginnst und wann du damit aufhörst (d. h., welche Zahl für ein Ereignis ...
Get 97 Dinge, die jeder Dateningenieur wissen sollte now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.