Kapitel 3. Datenrahmen, Datensätze und Spark SQL
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Spark SQL und seine Schnittstellen DataFrames
und Datasets
sind die Zukunft der Spark-Performance, mit effizienteren Speicheroptionen, fortschrittlichen Optimierern und direkten Operationen auf serialisierten Daten. Diese Komponenten sind super wichtig, um das Beste aus der Spark-Performance herauszuholen (siehe Abbildung 3-1).
Diese Komponenten sind relativ neu: Datasets
wurde in Spark 1.6 eingeführt, DataFrames
in Spark 1.3 und die SQL-Engine in Spark 1.0. In diesem Kapitel lernst du, wie du die Werkzeuge von Spark SQL am besten nutzt und wie du Spark SQL mit traditionellen Spark-Operationen kombinierst.
Warnung
Sparks DataFrames
hat eine ganz andere Funktionalität als die traditionelle DataFrames
wie die von Panda und R. Obwohl sie alle mit strukturierten Daten arbeiten, ist es wichtig, dass du dich nicht auf deine bestehende Intuition in Bezug auf DataFrames
verlässt.
Wie RDDs repräsentieren DataFrames
und Datasets
verteilte Sammlungen mit zusätzlichen Schemainformationen, die in RDDs nicht zu finden sind.Diese zusätzlichen Schemainformationen ...
Get Hochleistungsfunken now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.