Kapitel 10. Messung und Überwachung der Pipeline-Leistung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Selbst die am besten konzipierten Datenpipelines sind nicht dafür gedacht, dass man sie einfach einrichten und vergessen kann. Das Messen und Überwachen der Leistung von Pipelines ist unerlässlich. Du bist es deinem Team und deinen Stakeholdern schuldig, Erwartungen in Bezug auf die Zuverlässigkeit deiner Pipelines zu stellen und diese auch zu erfüllen.
In diesem Kapitel werden einige Tipps und bewährte Methoden für etwas vorgestellt, das Datenteams anderen liefern, aber überraschenderweise nicht immer in sich selbst investieren: das Sammeln von Daten und das Messen der Leistung ihrer Arbeit.
Wichtige Metriken der Pipeline
Bevor du festlegen kannst, welche Daten du in deinen Pipelines erfassen musst, musst du zunächst entscheiden, welche Kennzahlen du verfolgen willst.
Die Auswahl der Kennzahlen sollte damit beginnen, herauszufinden, was für dich und deine Interessengruppen wichtig ist. Einige Beispiele sind die folgenden:
-
Wie viele Validierungstests (siehe Kapitel 8) werden durchgeführt, und wie viel Prozent der insgesamt durchgeführten Tests bestehen
-
Wie häufig eine bestimmte DAG erfolgreich läuft
-
Die Gesamtlaufzeit einer Pipeline im Laufe von Wochen, Monaten und Jahren
Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.