Chapitre 7. Les agrégations
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
L'agrégation est l'action de rassembler quelque chose et est une pierre angulaire de l'analyse des big data. Dans une agrégation, tu vas spécifier une clé ou un regroupement et une fonction d'agrégation qui spécifie comment tu dois transformer une ou plusieurs colonnes. Cette fonction doit produire un résultat pour chaque groupe, compte tenu de plusieurs valeurs d'entrée. Les capacités d'agrégation de Spark sont sophistiquées et matures, avec une variété de cas d'utilisation et de possibilités différentes. En général, tu utilises les agrégations pour résumer des données numériques habituellement au moyen d'un certain regroupement. Il peut s'agir d'une sommation, d'un produit ou d'un simple comptage. De plus, avec Spark, tu peux agréger n'importe quel type de valeur dans un tableau, une liste ou une carte, comme nous le verrons dans "Agrégation vers des types complexes".
En plus de pouvoir travailler avec n'importe quel type de valeurs, Spark nous permet également de créer les types de regroupements suivants :
-
Le regroupement le plus simple consiste à résumer un DataFrame complet en effectuant une agrégation dans une instruction select.
-
Un "groupe par" te permet de spécifier une ou plusieurs clés ainsi qu'une ou plusieurs fonctions d'agrégation pour transformer les colonnes de valeurs.
-
Une "fenêtre" te donne la possibilité ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access