Capítulo 3. Marcos de datos, conjuntos de datos y Spark SQL

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Spark SQL y sus interfaces DataFrames y Datasets son el futuro del rendimiento de Spark, con opciones de almacenamiento más eficientes, un optimizador avanzado y operaciones directas sobre datos serializados. Estos componentes son superimportantes para obtener lo mejor del rendimiento de Spark (véase la Figura 3-1).

RDD versus DataFrame performance
Figura 3-1. Rendimiento relativo de RDD frente a DataFrames basado en SimplePerfTest calculando la difuminación media agregada de pandas

Se trata de componentes relativamente nuevos; Datasets se introdujo en Spark 1.6, DataFrames en Spark 1.3, y el motor SQL en Spark 1.0. Este capítulo se centra en ayudarte a aprender a utilizar mejor las herramientas de Spark SQL y a entremezclar Spark SQL con las operaciones tradicionales de Spark.

Advertencia

El DataFrames de Spark tiene una funcionalidad muy diferente en comparación con los DataFrames tradicionales, como los de Panda y R. Aunque todos ellos tratan con datos estructurados, es importante que no dependas de tu intuición existente en torno a DataFrames.

Al igual que los RDD, DataFrames y Datasets representan colecciones distribuidas, con información de esquema adicional que no se encuentra en los RDD.Esta información de esquema adicional se ...

Get Chispa de alto rendimiento now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.