Chapitre 7. Optimisation et réglage des applications Spark
Dans le chapitre précédent, nous avons détaillé la façon de travailler avec les Datasets en Java et en Scala. Nous avons exploré la façon dont Spark gère la mémoire pour s'adapter aux constructions de Datasets dans le cadre de son API unifiée et de haut niveau, et nous avons examiné les coûts associés à l'utilisation des Datasets et la façon d'atténuer ces coûts.
En plus d'atténuer les coûts, nous voulons aussi réfléchir à la façon d'optimiser et de régler Spark. Dans ce chapitre, nous discuterons d'un ensemble de configurations Spark qui permettent des optimisations, nous examinerons la famille de stratégies de jointure de Spark et nous inspecterons l'interface utilisateur de Spark, à la recherche d'indices de mauvais comportement.
Optimiser et régler Spark pour plus d'efficacité
Bien que Spark dispose de nombreuses configurations à régler, ce livre ne couvrira qu'une poignée des configurations les plus importantes et les plus couramment réglées. Pour une liste complète regroupée par thèmes fonctionnels, tu peux parcourir la documentation.
Affichage et réglage des configurations d'Apache Spark
Il y a trois façons d'obtenir et de définir les propriétés de Spark. La première consiste à utiliser un ensemble de fichiers de configuration. Dans le répertoire $SPARK_HOME de ton déploiement (là ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access