Kapitel 3. Die strukturierten APIs von Apache Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir die wichtigsten Beweggründe für die Einführung von Strukturen in Apache Spark erkunden und erfahren, wie diese Beweggründe zur Schaffung von High-Level-APIs (Datenrahmen und Datensätze) und deren Vereinheitlichung in Spark 2.x über alle Komponenten hinweg geführt haben. Außerdem werfen wir einen Blick auf die Spark SQL-Engine, die diese strukturierten High-Level-APIs unterstützt.

Als Spark SQL in den frühen Versionen von Spark 1.x eingeführt wurde, gefolgt von DataFrames als Nachfolger von SchemaRDDs in Spark 1.3, bekamen wir einen ersten Eindruck von der Struktur in Spark. Spark SQL führte ausdrucksstarke operative Funktionen ein, die eine SQL-ähnliche Syntax nachahmen, und DataFrames, die die Grundlage für mehr Struktur in den nachfolgenden Versionen legten, ebneten den Weg für performante Operationen in den Berechnungsabfragen von Spark.

Doch bevor wir über die neueren strukturierten APIs sprechen, werfen wir einen kurzen Blick auf das einfache RDD-Programmier-API-Modell, um zu sehen, wie es ist, keine Struktur in Spark zu haben.

Spark: Was verbirgt sich hinter einem RDD?

Das RDD ist die grundlegendste Abstraktion in Spark. Es gibt drei wichtige Eigenschaften, die mit einem RDD verbunden sind:

  • Abhängigkeiten

  • Partitionen (mit einigen Lokalitätsinformationen) ...

Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.