Capítulo 13. RDD avanzados

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El Capítulo 12 exploró en los fundamentos de la manipulación de RDDs simples. Aprendiste cómo crear RDDs y por qué querrías utilizarlos. Además, hablamos de mapear, filtrar, reducir y de cómo crear funciones para transformar datos de un único RDD. Este capítulo cubre las operaciones RDD avanzadas y se centra en los RDD clave-valor, una potente abstracción para manipular datos. También tocamos algunos temas más avanzados, como el particionamiento personalizado, una de las razones por las que quizá quieras utilizar RDDs en primer lugar. Con una función de partición personalizada, puedes controlar exactamente cómo se disponen los datos en el clúster y manipular esa partición individual en consecuencia. Antes de llegar ahí, resumamos los temas clave que trataremos:

  • Agregaciones y RDDs clave-valor

  • Partición personalizada

  • RDD se une

Nota

Este conjunto de APIs ha existido desde, esencialmente, el principio de Spark, y hay un montón de ejemplos por toda la web sobre este conjunto de APIs. Esto hace que sea trivial buscar y encontrar ejemplos que te muestren cómo utilizar estas operaciones.

Utilicemos el mismo conjunto de datos que utilizamos en el último capítulo:

// in Scala
val myCollection = "Spark The Definitive Guide : Big Data Processing Made Simple"
  .split(" ")
val words = spark.sparkContext.parallelize(myCollection, 2)
# in Python ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.