Capítulo 3. Marcos de datos, conjuntos de datos y Spark SQL
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Spark SQL y sus interfaces DataFrames y Datasets son el futuro del rendimiento de Spark, con opciones de almacenamiento más eficientes, un optimizador avanzado y operaciones directas sobre datos serializados. Estos componentes son superimportantes para obtener lo mejor del rendimiento de Spark (véase la Figura 3-1).
Figura 3-1. Rendimiento relativo de RDD frente a DataFrames basado en SimplePerfTest calculando la difuminación media agregada de pandas
Se trata de componentes relativamente nuevos; Datasets se introdujo en Spark 1.6, DataFrames en Spark 1.3, y el motor SQL en Spark 1.0. Este capítulo se centra en ayudarte a aprender a utilizar mejor las herramientas de Spark SQL y a entremezclar Spark SQL con las operaciones tradicionales de Spark.
Advertencia
El DataFrames de Spark tiene una funcionalidad muy diferente en comparación con los DataFrames tradicionales, como los de Panda y R. Aunque todos ellos tratan con datos estructurados, es importante que no dependas de tu intuición existente en torno a DataFrames.
Al igual que los RDD, DataFrames y Datasets representan colecciones distribuidas, con información de esquema adicional que no se encuentra en los RDD.Esta información de esquema adicional se ...