Capítulo 32. Lenguajes específicos: Python (PySpark) y R (SparkR y sparklyr)

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo cubrirá algunos de los matices más específicos del lenguaje Apache Spark. Hemos visto un gran número de ejemplos de PySpark a lo largo del libro. En el Capítulo 1, discutimos a alto nivel cómo Spark ejecuta código de otros lenguajes. Vamos a hablar de algunas de las integraciones más específicas:

  • PySpark

  • SparkR

  • sparklyr

Como recordatorio, la Figura 32-1 muestra la arquitectura fundamental de estos lenguajes específicos.

image
Figura 32-1. El controlador Spark

Ahora vamos a tratar cada uno de ellos en profundidad.

PySpark

En hemos hablado mucho de PySpark a lo largo de este libro. De hecho, PySpark se incluye junto a Scala y SQL en casi todos los capítulos de este libro. Por lo tanto, esta sección será breve y dulce, cubriendo sólo los detalles que son relevantes para el propio Spark. Como ya comentamos en el Capítulo 1, Spark 2.2 incluye una forma de instalar PySpark con pip. Simplemente, pip install pyspark lo pondrá a tu disposición como paquete en tu máquina local. Esto es nuevo, por lo que puede haber algunos errores que corregir, pero es algo que puedes aprovechar en tus proyectos hoy mismo.

Diferencias fundamentales de PySpark

Si utilizas las API estructuradas, ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.