Chapitre 3. Les API structurées d'Apache Spark
Dans ce chapitre, nous allons explorer les principales motivations derrière l'ajout de structure à Apache Spark, comment ces motivations ont conduit à la création d'API de haut niveau (DataFrames et Datasets), et leur unification dans Spark 2.x à travers ses composants. Nous nous pencherons également sur le moteur SQL de Spark qui sous-tend ces API structurées de haut niveau.
Lorsque Spark SQL a été introduit pour la première fois dans les premières versions de Spark 1.x, suivi par les DataFrames comme successeur des SchemaRDD dans Spark 1.3, nous avons eu notre premier aperçu de la structure dans Spark. Spark SQL a introduit des fonctions opérationnelles expressives de haut niveau, imitant la syntaxe de type SQL, et DataFrames, qui a jeté les bases d'une plus grande structure dans les versions suivantes, a ouvert la voie à des opérations performantes dans les requêtes de calcul de Spark.
Mais avant de parler des nouvelles API structurées, donnons un bref aperçu de ce que c'est que de ne pas avoir de structure dans Spark en jetant un coup d'œil au modèle d'API de programmation RDD simple.
Spark : Qu'est-ce qui se cache sous un RDD ?
Le RDD est l'abstraction la plus élémentaire de Spark. Trois caractéristiques essentielles sont associées à un RDD :
-
Dépendances
-
Partitions (avec quelques informations ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access