Skip to Main Content
Aprender Spark, 2ª Edición
book

Aprender Spark, 2ª Edición

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
September 2024
Intermediate to advanced content levelIntermediate to advanced
400 pages
10h 47m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from Aprender Spark, 2ª Edición

Capítulo 6. Spark SQL y conjuntos de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En los Capítulos 4 y 5, cubrimos Spark SQL y la API de DataFrame. Vimos cómo conectar con fuentes de datos integradas y externas, echamos un vistazo al motor Spark SQL y exploramos temas como la interoperabilidad entre SQL y DataFrames, la creación y gestión de vistas y tablas, y las transformaciones avanzadas de DataFrame y SQL.

Aunque en el Capítulo 3 presentamos brevemente la API de Conjuntos de datos, hemos pasado por alto los aspectos más destacados de cómo se crean, almacenan, serializan y deserializan los Conjuntos de datos (colecciones distribuidas fuertemente tipadas) en Spark.

En este capítulo, nos adentraremos en la comprensión de los Conjuntos de datos: exploraremos el trabajo con Conjuntos de datos en Java y Scala, cómo gestiona Spark la memoria para dar cabida a las construcciones de Conjuntos de datos como parte de la API de alto nivel, y los costes asociados al uso de Conjuntos de datos.

API única para Java y Scala

Como recordarás del Capítulo 3(Figura 3-1 y Tabla 3-6), los Conjuntos de datos ofrecen una API unificada y singular para objetos fuertemente tipados. Entre los lenguajes soportados por Spark, sólo Scala y Java son fuertemente tipados; por tanto, Python y R sólo soportan la API DataFrame no tipada.

Los conjuntos de datos son objetos tipados específicos del dominio, sobre los que se puede operar ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Escalar el aprendizaje automático con Spark

Escalar el aprendizaje automático con Spark

Adi Polak
Spark: La Guía Definitiva

Spark: La Guía Definitiva

Bill Chambers, Matei Zaharia

Publisher Resources

ISBN: 9781098181857