Kapitel 8. Datenvalidierung in Pipelines
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Selbst in der bestkonzipierten Datenpipeline kann immer etwas schiefgehen. Viele Probleme lassen sich durch ein gutes Design der Prozesse, der Orchestrierung und der Infrastruktur vermeiden oder zumindest abmildern. Um die Qualität und Gültigkeit der Daten selbst sicherzustellen, musst du jedoch in die Datenvalidierung investieren. Es ist am besten, wenn du davon ausgehst, dass ungeprüfte Daten nicht sicher sind, um sie für Analysen zu verwenden. In diesem Kapitel werden die Grundsätze der Datenvalidierung in den einzelnen Schritten einer ELT-Pipeline erläutert.
Früh validieren, oft validieren
Obwohl sie es gut meinen, lassen einige Datenteams die Datenvalidierung am Ende der Pipeline stehen und implementieren eine Art der Validierung während der Transformation oder sogar nachdem alle Transformationen abgeschlossen sind. Dabei gehen sie davon aus, dass die Datenanalysten (die in der Regel über die Transformationslogik verfügen) am besten in der Lage sind, die Daten zu verstehen und festzustellen, ob es Qualitätsprobleme gibt.
In einem solchen Konzept konzentrieren sich die Dateningenieure darauf, Daten von einem System in ein anderes zu verschieben, Pipelines zu orchestrieren und die Dateninfrastruktur zu pflegen. Das ist zwar die Aufgabe eines Data Engineers, aber eine Sache fehlt: Wenn sie den Inhalt der ...
Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.