Capítulo 5. Transformaciones eficaces
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Lo más habitual es que los programas Spark se estructuren sobre RDDs: implican leer datos del almacenamiento estable en el formato RDD, realizar una serie de cálculos y transformaciones de datos sobre el RDD, y escribir el RDD resultante en el almacenamiento estable o recogerlo en el controlador. Así pues, la mayor parte de la potencia de Spark procede de sus transformaciones: operaciones que se definen sobre RDDs y devuelven RDDs.
En la actualidad, Spark contiene funcionalidades especializadas para alrededor de media docena de tipos de RDD, cada uno con sus propias propiedades y decenas de funciones de transformación diferentes. En esta sección, esperamos darte las herramientas para pensar en cómo se evaluará tu transformación RDD, o una serie de transformaciones. En concreto: qué tipos de RDD devuelven estas transformaciones, si persistir o comprobar los RDD entre transformaciones hará que tu cálculo sea más eficiente, y cómo podría ejecutarse una serie determinada de transformaciones de la forma más eficiente posible.
Nota
Las transformaciones de esta sección son las asociadas al objeto RDD utilizado en Spark Core (y MLlib). Los RDD también se utilizan dentro de DStreams con Spark Streaming, pero tienen una funcionalidad y unas propiedades de rendimiento diferentes. Asimismo, la mayoría de las funciones tratadas en este capítulo ...
Get Chispa de alto rendimiento now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.