Kapitel 9. Bewährte Methoden für die Instandhaltung von Pipelines

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bis zu diesem Punkt hat sich dieses Buch auf den Aufbau von Datenpipelines konzentriert. In diesem Kapitel geht es darum, wie du diese Pipelines mit zunehmender Komplexität und den unvermeidlichen Änderungen in den Systemen, auf die deine Pipelines angewiesen sind, pflegen kannst.

Umgang mit Änderungen in Quellsystemen

Eine der häufigsten Herausforderungen für Dateningenieure ist der Umgang mit der Tatsache, dass die Systeme, aus denen sie Daten beziehen, nicht statisch sind. Die Entwickler nehmen ständig Änderungen an ihrer Software vor, indem sie entweder Funktionen hinzufügen, die Codebasis überarbeiten oder Fehler beheben. Wenn diese Änderungen zu einer Veränderung des Schemas oder der Bedeutung der zu übernehmenden Daten führen, besteht die Gefahr, dass die Pipeline ausfällt oder ungenau ist.

Wie in diesem Buch beschrieben, werden Daten in einer modernen Dateninfrastruktur aus einer Vielzahl von Quellen importiert. Daher ist es schwierig, eine allgemeingültige Lösung für den Umgang mit Schema- und Geschäftslogikänderungen in Quellsystemen zu finden. Dennoch gibt es ein paar bewährte Methoden, in die ich investieren sollte.

Abstraktion einführen

Wann immer möglich, ist es am besten, eine Abstraktionsebene zwischen dem Quellsystem und dem Ingestion-Prozess einzuführen. Außerdem ...

Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.