Skip to Main Content
Spark: La Guía Definitiva
book

Spark: La Guía Definitiva

by Bill Chambers, Matei Zaharia
September 2024
Intermediate to advanced content levelIntermediate to advanced
606 pages
16h 12m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from Spark: La Guía Definitiva

Capítulo 11. Conjuntos de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los Conjuntos de Datos son el tipo fundamental de las API Estructuradas. Ya trabajamos con DataFrames, que son Datasets de tipo Row, y están disponibles en los distintos lenguajes de Spark. Los Datasets son una característica estrictamente del lenguaje de la Máquina Virtual Java (JVM) que sólo funcionan con Scala y Java. Con los Conjuntos de datos, puedes definir el objeto en que consistirá cada fila de tu Conjunto de datos. En Scala, será un objeto de clase Case que esencialmente define un esquema que puedes utilizar, y en Java, definirás un Java Bean. Los usuarios experimentados suelen referirse a los Conjuntos de datos como el "conjunto tipado de APIs" de Spark. Para más información, consulta el Capítulo 4.

En el Capítulo 4, comentamos que Spark tiene tipos como StringType, BigIntType, StructType, etc. Esos tipos específicos de Spark se mapean a tipos disponibles en cada uno de los lenguajes de Spark como String, Integer, y Double. Cuando utilizas la API DataFrame, no creas cadenas o enteros, sino que Spark manipula los datos por ti manipulando el objeto Row. De hecho, si utilizas Scala o Java, todos los "DataFrames" son en realidad Datasets del tipo Row. Para soportar eficientemente objetos específicos del dominio, se requiere un concepto especial llamado "Codificador". El codificador mapea el tipo T específico del dominio al ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Óxido Atómico y Cerraduras

Óxido Atómico y Cerraduras

Mara Bos
CockroachDB: La guía definitiva

CockroachDB: La guía definitiva

Guy Harrison, Jesse Seldess, Ben Darnell
Concurrencia en Go

Concurrencia en Go

Katherine Cox-Buday

Publisher Resources

ISBN: 9781098183707Supplemental Content