Chapitre 12. Ensembles de données distribuées résilientes (RDD)
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
La partie précédente du livre a traité des API structurées de Spark. Tu devrais largement favoriser ces API dans presque tous les scénarios. Cela dit, il y a des moments où la manipulation de niveau supérieur ne répondra pas au problème commercial ou d'ingénierie que tu essayes de résoudre. Pour ces cas, tu pourrais avoir besoin d'utiliser les API de plus bas niveau de Spark, en particulier le Resilient Distributed Dataset (RDD), le SparkContext et les variables partagées distribuées comme les accumulateurs et les variables de diffusion. Les chapitres qui suivent dans cette partie traitent de ces API et de leur utilisation.
Avertissement
Si tu es tout à fait novice en matière de Spark, ce n'est pas par ici qu'il faut commencer. Commence par les API structurées, tu seras plus productif plus rapidement !
Que sont les API de bas niveau ?
Il y a deux ensembles d'API de bas niveau : l'un pour manipuler les données distribuées (RDD), et l'autre pour distribuer et manipuler les variables partagées distribuées (variables de diffusion et accumulateurs).
Quand utiliser les API de bas niveau ?
Tu devrais généralement utiliser les API de niveau inférieur dans trois situations :
-
Tu as besoin de certaines fonctionnalités que tu ne peux pas trouver dans les API de niveau supérieur ; par exemple, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access