Skip to Content
Datenalgorithmen mit Spark
book

Datenalgorithmen mit Spark

by Mahmoud Parsian
September 2024
Intermediate to advanced
438 pages
10h 26m
German
O'Reilly Media, Inc.
Book available
Content preview from Datenalgorithmen mit Spark

Kapitel 7. Interaktion mit externen Datenquellen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Um in Spark einen Algorithmus auszuführen, musst du Eingabedaten aus einer Datenquelle lesen, dann deinen Algorithmus in Form einer Reihe von PySpark-Transformationen und -Aktionen (ausgedrückt als DAG) anwenden und schließlich deine gewünschte Ausgabe in eine Zieldatenquelle schreiben. Um Algorithmen zu schreiben, die gut funktionieren, ist es also wichtig, das Lesen und Schreiben von und in externe Datenquellen zu verstehen.

In den vorherigen Kapiteln haben wir uns mit der Interaktion mit den eingebauten Datenquellen (RDDs und Datenrahmen) in Spark beschäftigt. In diesem Kapitel konzentrieren wir uns darauf, wie Spark mit externen Datenquellen interagiert.

Wie Abbildung 7-1 zeigt, kann Spark über seine Datenquellenschnittstelle Daten aus einer Vielzahl von externen Speichersystemen wie dem Linux-Dateisystem, Amazon S3, HDFS, Hive-Tabellen und relationalen Datenbanken (wie Oracle, MySQL oder PostgreSQL) lesen. In diesem Kapitel erfährst du, wie du Daten einliest und sie anschließend in RDDs oder Datenrahmen zur weiteren Verarbeitung umwandelst. Außerdem zeige ich dir, wie die Daten von Spark in externe Speichersysteme wie Dateien, Amazon S3 und JDBC-kompatible Datenbanken zurückgeschrieben werden ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Verteilte Systeme mit Kubernetes entwerfen

Verteilte Systeme mit Kubernetes entwerfen

Brendan Burns

Publisher Resources

ISBN: 9781098192037Supplemental Content