Kapitel 3. Datenrahmen, Datensätze und Spark SQL

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Spark SQL und seine Schnittstellen DataFrames und Datasets sind die Zukunft der Spark-Performance, mit effizienteren Speicheroptionen, fortschrittlichen Optimierern und direkten Operationen auf serialisierten Daten. Diese Komponenten sind super wichtig, um das Beste aus der Spark-Performance herauszuholen (siehe Abbildung 3-1).

RDD versus DataFrame performance
Abbildung 3-1. Relative Leistung für RDD im Vergleich zu Datenrahmen basierend auf SimplePerfTest, der die durchschnittliche Unschärfe von Pandas berechnet

Diese Komponenten sind relativ neu: Datasets wurde in Spark 1.6 eingeführt, DataFrames in Spark 1.3 und die SQL-Engine in Spark 1.0. In diesem Kapitel lernst du, wie du die Werkzeuge von Spark SQL am besten nutzt und wie du Spark SQL mit traditionellen Spark-Operationen kombinierst.

Warnung

Sparks DataFrames hat eine ganz andere Funktionalität als die traditionelle DataFrames wie die von Panda und R. Obwohl sie alle mit strukturierten Daten arbeiten, ist es wichtig, dass du dich nicht auf deine bestehende Intuition in Bezug auf DataFrames verlässt.

Wie RDDs repräsentieren DataFrames und Datasets verteilte Sammlungen mit zusätzlichen Schemainformationen, die in RDDs nicht zu finden sind.Diese zusätzlichen Schemainformationen ...

Get Hochleistungsfunken now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.