Chapitre 3. Transformations du mappeur
Ce chapitre présentera les transformations Spark mapper les plus courantes à l'aide d'exemples de travail simples. Sans une compréhension claire des transformations, il est difficile de les utiliser de manière appropriée et significative pour résoudre n'importe quel problème de données. Nous examinerons les transformations de mappeur dans le contexte des abstractions de données RDD. Un mappeur est une fonction utilisée pour traiter tous les éléments d'un RDD source et générer un RDD cible. Par exemple, un mappeur peut transformer un enregistrement String en tuples, en paires (clé, valeur) ou tout autre résultat souhaité. De manière informelle, nous pouvons dire qu'un mappeur transforme une sourceRDD[V] en une cible RDD[T], oùV et T sont les types de données des RDD source et cible, respectivement. Tu peux également appliquer des transformations de mappeur à des DataFrames, soit en appliquant des fonctions DataFrame (à l'aide de select() et d'UDF) à toutes les lignes, soit en convertissant ton DataFrame (un tableau de lignes et de colonnes) en RDD, puis en utilisant lestransformations de mappeur de Spark.
Abstractions de données et mappeurs
Spark dispose de nombreuses transformations et actions, mais ce chapitre ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access