Kapitel 10. Spark SQL

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Spark SQL ist wohl eine der wichtigsten und leistungsfähigsten Funktionen von Spark. In diesem Kapitel werden die wichtigsten Konzepte von Spark SQL vorgestellt, die du verstehen musst. In diesem Kapitel wird nicht die ANSI-SQL-Spezifikation umgeschrieben oder jede einzelne Art von SQL-Ausdruck aufgezählt. Wenn du andere Teile dieses Buches liest, wirst du feststellen, dass wir versuchen, SQL-Code überall dort einzufügen, wo wir DataFrame-Code einfügen, um Querverweise auf Codebeispiele zu erleichtern. Weitere Beispiele findest du im Anhang und im Referenzteil.

Kurz gesagt: Mit Spark SQL kannst du SQL-Abfragen gegen Ansichten oder Tabellen in Datenbanken ausführen. Du kannst auch Systemfunktionen verwenden oder Benutzerfunktionen definieren und Abfragepläne analysieren, um ihre Arbeitslast zu optimieren. Dies lässt sich direkt in die DataFrame- und Dataset-API integrieren. Wie wir in den vorherigen Kapiteln gesehen haben, kannst du einige deiner Datenmanipulationen in SQL und andere in DataFrames ausdrücken und beide werden zum gleichen zugrunde liegenden Code kompiliert.

Was ist SQL?

SQL oder Structured Query Language ist eine domänenspezifische Sprache, um relationale Operationen mit Daten auszudrücken. Sie wird in allen relationalen Datenbanken verwendet, und viele "NoSQL"-Datenbanken entwickeln ihren eigenen SQL-Dialekt, ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.