Kapitel 3. Gemeinsame Muster für Datenpipelines

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Selbst für erfahrene Dateningenieure ist die Entwicklung einer neuen Datenpipeline jedes Mal eine neue Reise. Wie in Kapitel 2 erläutert, stellen unterschiedliche Datenquellen und Infrastrukturen sowohl Herausforderungen als auch Chancen dar. Darüber hinaus werden Pipelines mit unterschiedlichen Zielen und Einschränkungen erstellt. Müssen die Daten nahezu in Echtzeit verarbeitet werden? Können sie täglich aktualisiert werden? Sollen sie für die Verwendung in einem Dashboard oder als Input für ein maschinelles Lernmodell modelliert werden?

Glücklicherweise gibt es einige gängige Muster für Datenpipelines, die sich als erfolgreich erwiesen haben und sich auf viele Anwendungsfälle übertragen lassen. In diesem Kapitel werde ich diese Muster definieren. In den folgenden Kapiteln werden darauf aufbauende Pipelines implementiert.

ETL und ELT

Es gibt wohl kein Muster, das bekannter ist als ETL und sein moderneres Geschwisterchen ELT. Beides sind Muster, die im Data Warehousing und in der Business Intelligence weit verbreitet sind. In den letzten Jahren haben sie Pipeline-Muster für Data Science- und Machine Learning-Modelle inspiriert, die in der Produktion laufen. Sie sind so bekannt, dass viele Leute diese Begriffe synonym für Datenpipelines verwenden und nicht für Muster, denen viele Pipelines folgen. ...

Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.