Kapitel 32. Sprachspezifika: Python (PySpark) und R (SparkR und sparklyr)

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel geht es um einige der feineren Sprachspezifika von Apache Spark. Im Laufe des Buches haben wir eine große Anzahl von PySpark-Beispielen gesehen. In Kapitel 1 haben wir in groben Zügen besprochen, wie Spark Code aus anderen Sprachen ausführt. Nun wollen wir einige der spezifischeren Integrationen besprechen:

  • PySpark

  • SparkR

  • sparklyr

Zur Erinnerung: Abbildung 32-1 zeigt die grundlegende Architektur für diese spezifischen Sprachen.

image
Abbildung 32-1. Der Spark-Treiber

Gehen wir nun auf jedes dieser Themen näher ein.

PySpark

Wir eine Menge PySpark in diesem Buch behandelt. PySpark ist neben Scala und SQL in fast jedem Kapitel dieses Buches enthalten. Daher wird dieser Abschnitt kurz und bündig sein und nur die Details behandeln, die für Spark selbst relevant sind. Wie wir in Kapitel 1 besprochen haben, gibt es in Spark 2.2 eine Möglichkeit, PySpark mit pip zu installieren. Ganz einfach: pip install pyspark stellt es als Paket auf deinem lokalen Rechner zur Verfügung. Das ist neu und es kann sein, dass noch einige Fehler behoben werden müssen, aber es ist etwas, das du schon heute in deinen Projekten nutzen kannst.

Grundlegende PySpark-Unterschiede

Wenn ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.