Capítulo 14. Variables compartidas distribuidas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En además de la interfaz del Conjunto de Datos Distribuido Resistente (RDD), el segundo tipo de API de bajo nivel en Spark son dos tipos de "variables compartidas distribuidas": las variables de difusión y los acumuladores. Se trata de variables que puedes utilizar en tus funciones definidas por el usuario (por ejemplo, en una función map sobre un RDD o un DataFrame) que tienen propiedades especiales cuando se ejecutan en un clúster. En concreto, los acumuladores te permiten sumar los datos de todas las tareas en un resultado compartido (por ejemplo, para implementar un contador que te permita ver cuántos de los registros de entrada de tu trabajo fallaron al analizarlos), mientras que las variables de difusión te permiten guardar un valor grande en todos los nodos trabajadores y reutilizarlo en muchas acciones Spark sin tener que reenviarlo al clúster. Este capítulo trata algunas de las motivaciones de cada uno de estos tipos de variables, así como la forma de utilizarlas.

Variables de difusión

Las variables Broadcast son una forma de compartir un valor inmutable de forma eficiente por el clúster sin encapsular esa variable en un cierre de función. La forma normal de utilizar una variable en tu nodo controlador dentro de tus tareas es simplemente hacer referencia a ella en tus cierres de función (por ejemplo, en una ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.