Kapitel 5. Architektur eines Data Lake

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ein Data Lake ist der Teil der Datenplattform, der rohe, nicht verwaltete Daten aus dem gesamten Unternehmen erfasst und Compute-Tools aus dem Apache-Ökosystem unterstützt. In diesem Kapitel gehen wir näher auf dieses Konzept ein, das für die Entwicklung moderner Datenplattformen wichtig ist. Wie du im Laufe des Kapitels erfährst, kann die Cloud den verschiedenen Anwendungsfällen, die darauf implementiert werden können, einen Schub geben.

Wir fangen mit einer Zusammenfassung an, warum du rohe, unkontrollierte Daten speichern solltest, die nur grundlegende Berechnungen unterstützen. Dann besprechen wir das Design der Architektur und die Details der Implementierung in der Cloud. Auch wenn Data Lakes ursprünglich nur für die grundlegende Datenverarbeitung gedacht waren, ist es heute möglich, den Datenzugriff und die Berichterstattung mit Hilfe eines Data Lakes zu demokratisieren - durch die Integration mit anderen Lösungen über APIs und Konnektoren können die Daten in einem Data Lake viel besser für den Zweck genutzt werden. Zum Schluss werfen wir einen Blick aus der Vogelperspektive auf eine sehr verbreitete Methode, um die Analyse und das Experimentieren mit Daten innerhalb eines Unternehmens zu beschleunigen, indem wir Data Science Notebooks einsetzen.

Data Lake und die Cloud - eine perfekte Ehe

Daten helfen ...

Get Architektur von Plattformen für Daten und maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.