Chapitre 14. Variables partagées distribuées
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Sur En plus de l'interface RDD (Resilient Distributed Dataset), le deuxième type d'API de bas niveau dans Spark est constitué de deux types de "variables partagées distribuées" : les variables de diffusion et les accumulateurs. Il s'agit de variables que tu peux utiliser dans tes fonctions définies par l'utilisateur (par exemple, dans une fonction map sur un RDD ou un DataFrame) et qui ont des propriétés spéciales lorsqu'elles sont exécutées sur un cluster. Plus précisément, les accumulateurs te permettent d'additionner les données de toutes les tâches en un résultat partagé (par exemple, pour implémenter un compteur afin que tu puisses voir combien d'enregistrements d'entrée de ton travail n'ont pas réussi à être analysés), tandis que les variables de diffusion te permettent d'enregistrer une grande valeur sur tous les nœuds de travail et de la réutiliser dans de nombreuses actions Spark sans la renvoyer au cluster. Ce chapitre aborde certaines des motivations de chacun de ces types de variables ainsi que la manière de les utiliser.
Variables de diffusion
Les variables Broadcast sont un moyen de partager efficacement une valeur immuable dans le cluster sans encapsuler cette variable dans une fermeture de fonction. La façon normale d'utiliser une variable dans ton nœud de pilote à l'intérieur de tes tâches ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access