Kapitel 7. Die Architektur des Data Lake

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Es gibt viele Möglichkeiten, Daten in einem Data Lake zu organisieren. In diesem Kapitel beginnen wir damit, wie man einen Data Lake in Zonen organisiert. Dann vergleichen wir On-Premises und Cloud Data Lakes. Zum Schluss gehen wir auf virtuelle Data Lakes ein, die die Ressourcennutzung und den Aufwand für die Pflege eines Data Lakes minimieren und gleichzeitig die gleichen Funktionen wie physische Data Lakes bieten.

Organisieren des Data Lake

Sobald ein Data Lake eingerichtet ist, brauchen die Analysten eine Möglichkeit, die darin enthaltenen Daten zu finden und zu verstehen. Das ist eine gewaltige Aufgabe, wenn man bedenkt, wie vielfältig die Daten in den meisten Unternehmen sind (ein großer Einzelhändler, mit dem ich gesprochen habe, hat über 30.000 Datenquellen, die seinen Data Lake speisen, und sagte, dass jede Quelle Hunderte oder sogar Tausende von Tabellen enthalten kann). Selbst wenn die Analysten den richtigen Datensatz finden, müssen sie wissen, ob sie den Daten vertrauen können. Damit sich die Nutzer/innen frei im Data Lake bewegen können, müssen sensible Daten identifiziert und geschützt werden, damit sie nicht versehentlich preisgegeben werden. All diese Aufgaben fallen unter den Begriff der Data Governance.

In den alten Tagen des Data Warehousing wurde die Data Governance von einem großen ...

Get Der Enterprise Big Data Lake now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.