Capítulo 3. Marcos de datos, conjuntos de datos y Spark SQL
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Spark SQL y sus interfaces DataFrames
y Datasets
son el futuro del rendimiento de Spark, con opciones de almacenamiento más eficientes, un optimizador avanzado y operaciones directas sobre datos serializados. Estos componentes son superimportantes para obtener lo mejor del rendimiento de Spark (véase la Figura 3-1).
Se trata de componentes relativamente nuevos; Datasets
se introdujo en Spark 1.6, DataFrames
en Spark 1.3, y el motor SQL en Spark 1.0. Este capítulo se centra en ayudarte a aprender a utilizar mejor las herramientas de Spark SQL y a entremezclar Spark SQL con las operaciones tradicionales de Spark.
Advertencia
El DataFrames
de Spark tiene una funcionalidad muy diferente en comparación con los DataFrames
tradicionales, como los de Panda y R. Aunque todos ellos tratan con datos estructurados, es importante que no dependas de tu intuición existente en torno a DataFrames
.
Al igual que los RDD, DataFrames
y Datasets
representan colecciones distribuidas, con información de esquema adicional que no se encuentra en los RDD.Esta información de esquema adicional se ...
Get Chispa de alto rendimiento now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.