Skip to Content
Apprendre Spark, 2ème édition
book

Apprendre Spark, 2ème édition

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
November 2024
Intermediate to advanced
400 pages
11h 12m
French
O'Reilly Media, Inc.
Content preview from Apprendre Spark, 2ème édition

Chapitre 6. Spark SQL et les ensembles de données

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Dans les chapitres 4 et 5, nous avons abordé la question de Spark SQL et de l'API DataFrame. Nous avons vu comment nous connecter à des sources de données intégrées et externes, jeté un coup d'œil au moteur Spark SQL et exploré des sujets tels que l'interopérabilité entre SQL et DataFrames, la création et la gestion de vues et de tables, et les transformations DataFrame et SQL avancées.

Bien que nous ayons brièvement présenté l'API Dataset au chapitre 3, nous avons survolé les aspects saillants de la façon dont les Datasets - des collections distribuées fortement typées - sont créés, stockés, sérialisés et désérialisés dans Spark.

Dans ce chapitre, nous allons sous le capot pour comprendre les Datasets : nous allons explorer le travail avec les Datasets en Java et Scala, la façon dont Spark gère la mémoire pour accueillir les constructions de Datasets dans le cadre de l'API de haut niveau, et les coûts associés à l'utilisation des Datasets.

Une seule API pour Java et Scala

Comme tu t'en souviens peut-être au chapitre 3(figure 3-1 et tableau 3-6), les Datasets offrent une API unifiée et singulière pour les objets fortement typés. Parmi les langages pris en charge par Spark, seuls Scala et Java sont fortement typés ; par conséquent, Python et R ne prennent en charge que l'API non typée DataFrame.

Les ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Spark : Le guide définitif

Spark : Le guide définitif

Bill Chambers, Matei Zaharia
Algorithmes en un clin d'œil, 2e édition

Algorithmes en un clin d'œil, 2e édition

George T. Heineman, Gary Pollice, Stanley Selkow

Publisher Resources

ISBN: 9798341609167