Kapitel 7. Achte auf das Batching-Modell in deinen Datenpipelines

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Raghotham Murthy

Wenn du Datensätze in Stapeln aufnimmst und Batch-Datenpipelines erstellst, musst du festlegen, wie die Stapel über einen bestimmten Zeitraum erstellt werden sollen. Stapel können auf der Grundlage der data_timestamp oder der arrival_timestamp des Datensatzes erstellt werden. data_timestamp ist der Zeitstempel der letzten Aktualisierung, der im Datensatz selbst enthalten ist. arrival_timestamp ist der Zeitstempel, der an den Datensatz angehängt wird, je nachdem, wann der Datensatz vom Verarbeitungssystem empfangen wurde.

Daten Zeitfenster Batching Modell

Im Datenzeitfenster (DTW) wird ein Stapel für ein Zeitfenster erstellt, wenn alle Datensätze mit einer data_timestamp in diesem Fenster eingegangen sind. Verwende dieses Batching-Modell, wenn:

  • Die Daten werden von der Quelle gezogen (und nicht von ihr gepusht).

  • Die Extraktionslogik kann Datensätze mit einer data_timestamp außerhalb des Zeitfensters herausfiltern.

Verwende zum Beispiel DTW-Batching, wenn du alle Transaktionen innerhalb eines Zeitfensters aus einer Datenbank extrahierst. DTW-Batching macht dem Analysten das Leben bei der Analyse leichter, da garantiert werden kann, dass alle Datensätze für ein bestimmtes ...

Get 97 Dinge, die jeder Dateningenieur wissen sollte now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.