Capítulo 6. Spark SQL y conjuntos de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En los Capítulos 4 y 5, cubrimos Spark SQL y la API de DataFrame. Vimos cómo conectar con fuentes de datos integradas y externas, echamos un vistazo al motor Spark SQL y exploramos temas como la interoperabilidad entre SQL y DataFrames, la creación y gestión de vistas y tablas, y las transformaciones avanzadas de DataFrame y SQL.
Aunque en el Capítulo 3 presentamos brevemente la API de Conjuntos de datos, hemos pasado por alto los aspectos más destacados de cómo se crean, almacenan, serializan y deserializan los Conjuntos de datos (colecciones distribuidas fuertemente tipadas) en Spark.
En este capítulo, nos adentraremos en la comprensión de los Conjuntos de datos: exploraremos el trabajo con Conjuntos de datos en Java y Scala, cómo gestiona Spark la memoria para dar cabida a las construcciones de Conjuntos de datos como parte de la API de alto nivel, y los costes asociados al uso de Conjuntos de datos.
API única para Java y Scala
Como recordarás del Capítulo 3(Figura 3-1 y Tabla 3-6), los Conjuntos de datos ofrecen una API unificada y singular para objetos fuertemente tipados. Entre los lenguajes soportados por Spark, sólo Scala y Java son fuertemente tipados; por tanto, Python y R sólo soportan la API DataFrame no tipada.
Los conjuntos de datos son objetos tipados específicos del dominio, sobre los que se puede operar ...