Kapitel 28. Die Data Lake Architektur annehmen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Vinoth Chandar
Oftmals bauen Dateningenieure Datenpipelines auf, um Daten aus externen Quellen zu extrahieren, sie umzuwandeln und anderen Teilen des Unternehmens die Abfrage der resultierenden Datensätze zu ermöglichen. Kurzfristig ist es zwar einfacher, all dies als einstufige Pipeline aufzubauen, aber um dieses Modell auf Tausende von Datensätzen mit mehreren Tera/Petabytes zu skalieren, ist eine durchdachte Datenarchitektur erforderlich.
Häufige Fallstricke
Der einstufige Ansatz birgt einige Fallstricke, die wir kennen. Zunächst einmal schränkt er die Skalierbarkeit ein, da die Eingabedaten für eine solche Pipeline durch das Durchsuchen von vorgelagerten Datenbanken - relationale Datenbankmanagementsysteme (RDBMS) oder NoSQL-Speicher - gewonnen werden, was diese Systeme letztlich belastet und sogar zu Ausfällen führen kann. Außerdem ermöglicht der direkte Zugriff auf solche Daten nur eine geringe Standardisierung zwischen den Pipelines (z. B. Standard-Zeitstempel, Schlüsselfelder) und erhöht das Risiko von Datenbrüchen aufgrund fehlender Schemata/Datenverträge. Und schließlich sind nicht alle Daten oder Spalten an einem Ort verfügbar, um sie frei miteinander zu korrelieren und Erkenntnisse zu gewinnen ...
Get 97 Dinge, die jeder Dateningenieur wissen sollte now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.