Skip to Content
Chispa de alto rendimiento
book

Chispa de alto rendimiento

by Holden Karau, Rachel Warren
September 2024
Intermediate to advanced
356 pages
10h 57m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from Chispa de alto rendimiento

Capítulo 6. Trabajar con datos clave/valor

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como cualquier buena herramienta de computación distribuida, Spark se basa en gran medida en el paradigma de pares clave/valor para definir y paralelizar operaciones, transformaciones especialmente amplias que requieren que los datos se redistribuyan entre máquinas. Siempre que queramos realizar operaciones agrupadas en paralelo o cambiar el orden de los registros entre máquinas -ya sea calcular una estadística de agregación o fusionar registros de clientes- la funcionalidad clave/valor de Spark es útil, ya que nos permite paralelizar fácilmente nuestro trabajo. Spark tiene su propia clase PairRDDFunctions que contiene operaciones definidas sobre RDDs de tuplas. La clase PairRDDFunctions, disponible mediante conversión implícita, contiene la mayoría de los métodos de Spark para uniones y agregaciones personalizadas. La clase OrderedRDDFunctions contiene los métodos para ordenar. La clase OrderedRDDFunctions está disponible para RDDs de tuplas en los que el primer elemento (la clave) tiene una ordenación implícita.

Nota

Existen operaciones similares en Datasets, como se explica en "Operaciones agrupadas en conjuntos de datos".

A pesar de su utilidad, las operaciones clave/valor pueden dar lugar a una serie de problemas de rendimiento. De hecho, la mayoría de las operaciones caras de Spark encajan en el paradigma de los ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Dominar el reconocimiento de patrones financieros

Dominar el reconocimiento de patrones financieros

Sofien Kaabar
Datos de malla

Datos de malla

Zhamak Dehghani

Publisher Resources

ISBN: 9781098189099