Kapitel 9. Aufbau zuverlässiger Data Lakes mit Apache Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorherigen Kapiteln hast du gelernt, wie du Apache Spark einfach und effektiv nutzen kannst, um skalierbare und leistungsfähige Datenverarbeitungspipelines zu erstellen. In der Praxis löst das Ausdrücken der Verarbeitungslogik jedoch nur die Hälfte des End-to-End-Problems beim Aufbau einer Pipeline. Für einen Dateningenieur, Data Scientist oder Datenanalysten besteht das ultimative Ziel beim Aufbau von Pipelines darin, die verarbeiteten Daten abzufragen und daraus Erkenntnisse zu gewinnen. Die Wahl der Speicherlösung entscheidet über die Robustheit und Leistung der Datenpipeline von Anfang bis Ende (d. h. von den Rohdaten bis zu den Erkenntnissen).

In diesem Kapitel gehen wir zunächst auf die wichtigsten Merkmale einer Speicherlösung ein, auf die du achten musst. Dann besprechen wir zwei große Klassen von Speicherlösungen, Datenbanken und Data Lakes, und wie du Apache Spark mit ihnen nutzen kannst. Schließlich stellen wir die nächste Welle von Speicherlösungen vor, die sogenannten Lakehouses, und erkunden einige der neuen Open-Source-Verarbeitungsmaschinen in diesem Bereich.

Die Wichtigkeit einer optimalen Speicherung

Hier sind einige der Eigenschaften, die bei einer Speicherung erwünscht sind:

Skalierbarkeit und Leistung

Die Speicherlösung sollte in der Lage sein, das Datenvolumen ...

Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.