Kapitel 9. Datenquellen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden die zahlreichen anderen Datenquellen vorgestellt, die du mit Spark verwenden kannst, sowie die unzähligen anderen Quellen, die von der Community entwickelt wurden. Spark verfügt über sechs "Kern"-Datenquellen und Hunderte von externen Datenquellen, die von der Community geschrieben wurden. Die Fähigkeit, alle Arten von Datenquellen zu lesen und zu schreiben, und die Möglichkeit der Community, eigene Beiträge zu erstellen, ist wohl eine der größten Stärken von Spark. Unter findest du die Kerndatenquellen von Spark:

CSV
JSON
Parkett
ORC
JDBC/ODBC-Verbindungen
Dateien im Klartext

Wie bereits erwähnt, verfügt Spark über zahlreiche von der Community erstellte Datenquellen. Hier ist nur eine kleine Auswahl:

Cassandra
HBase
MongoDB
AWS Redshift
XML
Und viele, viele andere

Das Ziel dieses Kapitels ist es, dir die Fähigkeit zu vermitteln, aus den Kerndatenquellen von Spark zu lesen und zu schreiben und genug zu wissen, um zu verstehen, worauf du bei der Integration von Datenquellen anderer Anbieter achten solltest. Um dies zu erreichen, konzentrieren wir uns auf die Kernkonzepte, die du erkennen und verstehen musst.

Die Struktur der Datenquellen-API

Bevor sich damit befasst, wie man bestimmte Formate liest und schreibt, schauen wir uns die allgemeine Organisationsstruktur der Datenquellen-APIs ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Spark: Der endgültige Leitfaden by Bill Chambers, Matei Zaharia

Kapitel 9. Datenquellen

Die Struktur der Datenquellen-API

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly