Chapitre 4. Réductions dans Spark
Ce chapitre se concentre sur les transformations de réduction sur les RDD dans Spark. En particulier, nous travaillerons avec des RDD de paires (clé, valeur), qui constituent une abstraction de données commune requise pour de nombreuses opérations dans Spark. Certaines opérations ETL initiales peuvent être nécessaires pour obtenir tes données sous une forme (clé, valeur), mais avec les RDD de paires, tu peux effectuer n'importe quelle agrégation souhaitée sur un ensemble de valeurs.
Spark prend en charge plusieurs transformations et actions de réduction puissantes. Les transformations de réduction les plus importantes sont :
-
reduceByKey() -
combineByKey() -
groupByKey() -
aggregateByKey()
Toutes les transformations *ByKey() acceptent une sourceRDD[(K, V)] et créent une cibleRDD[(K, C)] (pour certaines transformations, comme reduceByKey(), V et Csont identiques). La fonction de ces transformations est de réduire toutes les valeurs d'une clé donnée (pour toutes les clés uniques), en trouvant, par exemple :
-
La moyenne de toutes les valeurs
-
La somme et le nombre de toutes les valeurs
-
Le mode et la médiane de toutes les valeurs
-
L'écart type de toutes les valeurs
Réduction Transformation Sélection
Comme pour les transformations du mappeur, il est important de choisir le bon outil pour le travail. Pour certaines ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access