Kapitel 32. Sprachspezifika: Python (PySpark) und R (SparkR und sparklyr)
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel geht es um einige der feineren Sprachspezifika von Apache Spark. Im Laufe des Buches haben wir eine große Anzahl von PySpark-Beispielen gesehen. In Kapitel 1 haben wir in groben Zügen besprochen, wie Spark Code aus anderen Sprachen ausführt. Nun wollen wir einige der spezifischeren Integrationen besprechen:
-
PySpark
-
SparkR
-
sparklyr
Zur Erinnerung: Abbildung 32-1 zeigt die grundlegende Architektur für diese spezifischen Sprachen.
Gehen wir nun auf jedes dieser Themen näher ein.
PySpark
Wir eine Menge PySpark in diesem Buch behandelt. PySpark ist neben Scala und SQL in fast jedem Kapitel dieses Buches enthalten. Daher wird dieser Abschnitt kurz und bündig sein und nur die Details behandeln, die für Spark selbst relevant sind. Wie wir in Kapitel 1 besprochen haben, gibt es in Spark 2.2 eine Möglichkeit, PySpark mit pip
zu installieren. Ganz einfach: pip install pyspark
stellt es als Paket auf deinem lokalen Rechner zur Verfügung. Das ist neu und es kann sein, dass noch einige Fehler behoben werden müssen, aber es ist etwas, das du schon heute in deinen Projekten nutzen kannst.
Grundlegende PySpark-Unterschiede
Wenn ...
Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.