Kapitel 12. Daten-See-Haus
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Ich habe bereits kurz über das Data Lakehouse als Harmonisierung der Konzepte von Data Lake und Data Warehouse gesprochen. Die Idee hinter einem Data Lakehouse ist es, die Dinge zu vereinfachen, indem man nur einen Data Lake verwendet, um alle Daten zu speichern, anstatt ein separates relationales Data Warehouse zu haben. Dazu braucht der Data Lake mehr Funktionalität, um die Funktionen eines RDW zu ersetzen. An dieser Stelle kommt der Delta Lake von Databricks ins Spiel.
Delta Lake ist eine Software-Schicht für die transaktionale Speicherung, die auf einem bestehenden Data Lake läuft und RDW-ähnliche Funktionen hinzufügt, die die Zuverlässigkeit, Sicherheit und Leistung des Sees verbessern. Delta Lake selbst ist keine Speicherung. In den meisten Fällen ist es einfach, einen Data Lake in einen Delta Lake zu verwandeln. Du musst lediglich beim Speichern von Daten in deinem Data Lake angeben, dass du sie im Delta Lake-Format speichern möchtest (im Gegensatz zu anderen Formaten wie CSV oder JSON).
Wenn du eine Datei im Delta Lake-Format speicherst, wird sie hinter den Kulissen auf ihre eigene, spezielle Art und Weise gespeichert. Sie besteht aus Parquet-Dateien in Ordnern und einem Transaktionsprotokoll, das alle Änderungen an den Daten festhält. Während die eigentlichen Daten in deinem Data Lake in einem ähnlichen Format ...
Get Datenarchitekturen entschlüsseln now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.