Kapitel 32. Sprachspezifika: Python (PySpark) und R (SparkR und sparklyr)
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel geht es um einige der feineren Sprachspezifika von Apache Spark. Im Laufe des Buches haben wir eine große Anzahl von PySpark-Beispielen gesehen. In Kapitel 1 haben wir in groben Zügen besprochen, wie Spark Code aus anderen Sprachen ausführt. Nun wollen wir einige der spezifischeren Integrationen besprechen:
-
PySpark
-
SparkR
-
sparklyr
Zur Erinnerung: Abbildung 32-1 zeigt die grundlegende Architektur für diese spezifischen Sprachen.
Abbildung 32-1. Der Spark-Treiber
Gehen wir nun auf jedes dieser Themen näher ein.
PySpark
Wir eine Menge PySpark in diesem Buch behandelt. PySpark ist neben Scala und SQL in fast jedem Kapitel dieses Buches enthalten. Daher wird dieser Abschnitt kurz und bündig sein und nur die Details behandeln, die für Spark selbst relevant sind. Wie wir in Kapitel 1 besprochen haben, gibt es in Spark 2.2 eine Möglichkeit, PySpark mit pip zu installieren. Ganz einfach: pip install pyspark stellt es als Paket auf deinem lokalen Rechner zur Verfügung. Das ist neu und es kann sein, dass noch einige Fehler behoben werden müssen, aber es ist etwas, das du schon heute in deinen Projekten nutzen kannst.
Grundlegende PySpark-Unterschiede
Wenn ...