Chapitre 6. Spark SQL et les ensembles de données
Dans les chapitres 4 et 5, nous avons abordé la question de Spark SQL et de l'API DataFrame. Nous avons vu comment nous connecter à des sources de données intégrées et externes, jeté un coup d'œil au moteur Spark SQL et exploré des sujets tels que l'interopérabilité entre SQL et DataFrames, la création et la gestion de vues et de tables, et les transformations DataFrame et SQL avancées.
Bien que nous ayons brièvement présenté l'API Dataset au chapitre 3, nous avons survolé les aspects saillants de la façon dont les Datasets - des collections distribuées fortement typées - sont créés, stockés, sérialisés et désérialisés dans Spark.
Dans ce chapitre, nous allons sous le capot pour comprendre les Datasets : nous allons explorer le travail avec les Datasets en Java et Scala, la façon dont Spark gère la mémoire pour accueillir les constructions de Datasets dans le cadre de l'API de haut niveau, et les coûts associés à l'utilisation des Datasets.
Une seule API pour Java et Scala
Comme tu t'en souviens peut-être au chapitre 3(figure 3-1 et tableau 3-6), les Datasets offrent une API unifiée et singulière pour les objets fortement typés. Parmi les langages pris en charge par Spark, seuls Scala et Java sont fortement typés ; par conséquent, Python et R ne prennent en charge que l'API non typée DataFrame.
Les ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access