Chapitre 13. RDD avancés
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Le chapitre 12 a exploré les bases de la manipulation d'un seul RDD. Tu as appris comment créer des RDD et pourquoi tu pourrais vouloir les utiliser. En outre, nous avons abordé les notions de map, de filter, de reduce et la façon de créer des fonctions pour transformer les données d'un seul RDD. Ce chapitre couvre les opérations RDD avancées et se concentre sur les RDD clé-valeur, une abstraction puissante pour manipuler les données. Nous abordons également des sujets plus avancés tels que le partitionnement personnalisé, une des raisons pour lesquelles tu souhaites utiliser les RDD en premier lieu. Avec une fonction de partitionnement personnalisée, tu peux contrôler exactement la façon dont les données sont disposées sur le cluster et manipuler cette partition individuelle en conséquence. Avant d'en arriver là, résumons les principaux sujets que nous allons aborder :
-
Agrégations et RDDs clé-valeur
-
Partitionnement personnalisé
-
Joints RDD
Note
Cet ensemble d'API existe depuis, essentiellement, le début de Spark, et il y a une tonne d' exemples partout sur le web sur cet ensemble d'API. Il est donc trivial de chercher et de trouver des exemples qui te montreront comment utiliser ces opérations.
Utilisons le même ensemble de données que nous avons utilisé dans le dernier chapitre :
// in ScalavalmyCollection="Spark ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access