Kapitel 7. Interaktion mit externen Datenquellen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Um in Spark einen Algorithmus auszuführen, musst du Eingabedaten aus einer Datenquelle lesen, dann deinen Algorithmus in Form einer Reihe von PySpark-Transformationen und -Aktionen (ausgedrückt als DAG) anwenden und schließlich deine gewünschte Ausgabe in eine Zieldatenquelle schreiben. Um Algorithmen zu schreiben, die gut funktionieren, ist es also wichtig, das Lesen und Schreiben von und in externe Datenquellen zu verstehen.

In den vorherigen Kapiteln haben wir uns mit der Interaktion mit den eingebauten Datenquellen (RDDs und Datenrahmen) in Spark beschäftigt. In diesem Kapitel konzentrieren wir uns darauf, wie Spark mit externen Datenquellen interagiert.

Wie Abbildung 7-1 zeigt, kann Spark über seine Datenquellenschnittstelle Daten aus einer Vielzahl von externen Speichersystemen wie dem Linux-Dateisystem, Amazon S3, HDFS, Hive-Tabellen und relationalen Datenbanken (wie Oracle, MySQL oder PostgreSQL) lesen. In diesem Kapitel erfährst du, wie du Daten einliest und sie anschließend in RDDs oder Datenrahmen zur weiteren Verarbeitung umwandelst. Außerdem zeige ich dir, wie die Daten von Spark in externe Speichersysteme wie Dateien, Amazon S3 und JDBC-kompatible Datenbanken zurückgeschrieben werden ...

Get Datenalgorithmen mit Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.