Kapitel 19. Data Pipeline Design Patterns für Wiederverwendbarkeit und Erweiterbarkeit

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Mukul Sood

Die Entwicklung von erweiterbaren, modularen und wiederverwendbaren Datenpipelines ist ein wichtiges Thema in der Datentechnik, denn sie erfordert den Umgang mit ständigen Veränderungen auf verschiedenen Ebenen wie Datenquellen, Ingestion, Validierung, Verarbeitung, Sicherheit, Protokollierung und Überwachung. Diese Änderungen erfolgen auf den verschiedenen Ebenen unterschiedlich schnell und wirken sich je nach Abstraktionsebene und Design der Pipeline unterschiedlich auf die Datenpipelines aus.

Um den Kontext der Schichten einer Datenpipeline zu verdeutlichen und die Konfiguration abzubilden, kann die Pipeline in destillierter Form als Ingestion-, Processing- und Result-Schicht betrachtet werden. Für jede Ebene können wir uns Funktionen vorstellen, die funktionalen Blöcken zugeordnet sind. Der Inhalt der Blöcke ändert sich je nach den Anforderungen der Schicht. Dies hilft uns, in Templates und Konfigurationen zu denken, die den gerichteten azyklischen Graphen (DAG) der Pipeline darstellen können.

Die Ebenen Ingestion, Processing und Result können je nach Bedarf verschiedenen Loggern und Monitoren zugeordnet werden. In der Ingestion-Ebene könnte das ...

Get 97 Dinge, die jeder Dateningenieur wissen sollte now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.