Skip to Main Content
Spark: La Guía Definitiva
book

Spark: La Guía Definitiva

by Bill Chambers, Matei Zaharia
September 2024
Intermediate to advanced content levelIntermediate to advanced
606 pages
16h 12m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from Spark: La Guía Definitiva

Capítulo 5. Operaciones estructuradas básicas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 4, hemos introducido en las abstracciones básicas de la API Estructurada. Este capítulo se aleja de los conceptos arquitectónicos y se acerca a las herramientas tácticas que utilizarás para manipular los DataFrames y los datos que contienen. Este capítulo se centra exclusivamente en las operaciones fundamentales de los DataFrame y evita las agregaciones, las funciones de ventana y las uniones. Éstas se tratan en capítulos posteriores.

Definitivamente, un Conjunto de datos consta de una serie de registros (como las filas de una tabla), que son del tipo Row, y de una serie de columnas (como las columnas de una hoja de cálculo) que representan una expresión de cálculo que puede realizarse en cada registro individual del Conjunto de datos. Los esquemas definen tanto el nombre como el tipo de datos de cada columna. El particionamiento del Marco de datos define la disposición de la distribución física del Marco de datos o Conjunto de datos en el clúster. El esquema de particionamiento define cómo se asigna. Puedes configurarlo para que se base en los valores de una determinada columna o de forma no determinista.

Vamos a crear un DataFrame con el que podamos trabajar:

// in Scala
val df = spark.read.format("json")
  .load("/data/flight-data/json/2015-summary.json")
# in Python
df = spark.read.format("json").load ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Óxido Atómico y Cerraduras

Óxido Atómico y Cerraduras

Mara Bos
CockroachDB: La guía definitiva

CockroachDB: La guía definitiva

Guy Harrison, Jesse Seldess, Ben Darnell
Concurrencia en Go

Concurrencia en Go

Katherine Cox-Buday

Publisher Resources

ISBN: 9781098183707Supplemental Content