book

Spark : Le guide définitif

Name: Spark : Le guide définitif
ISBN: 9798341619975

by Bill Chambers, Matei Zaharia

November 2024

Intermediate to advanced

606 pages

17h 8m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
À propos des auteursÀ qui s'adresse ce livreConventions utilisées dans ce livreUtiliser des exemples de codeO'Reilly SafariComment nous contacterRemerciements
I. Aperçu en douceur du Big Data et de Spark
1. Qu'est-ce que Apache Spark ?
La philosophie d'Apache SparkContexte : Le problème des Big DataHistoire de SparkLe présent et l'avenir de SparkSpark en cours de routeTélécharger Spark localementLancement des consoles interactives de SparkExécuter Spark dans le CloudDonnées utilisées dans ce livre
2. Une introduction en douceur à Spark
L'architecture de base de SparkApplications de SparkLes API de langage de SparkLes API de SparkSpark de départLa session SparkSessionCadres de donnéesCloisonsTransformationsÉvaluation paresseuseActionsSpark UIUn exemple de bout en boutDataFrames et SQLConclusion
3. Visite guidée de l'ensemble des outils de Spark
Exécuter des applications de productionEnsembles de données : API structurées et sûresFlux structuréApprentissage automatique et analyse avancéeAPI de niveau inférieurSparkRL'écosystème et les paquets de SparkConclusion
II. API structurées - cadres de données, SQL et ensembles de données
4. Aperçu de l'API structurée
Cadres de données et ensembles de donnéesSchémasAperçu des types de Spark structurésLes cadres de données et les ensembles de donnéesColonnesRangsTypes de SparkAperçu de l'exécution structurée de l'APIPlanification logiqueAménagement du territoireExécutionConclusion
5. Opérations structurées de base
SchémasColonnes et expressionsColonnesExpressionsEnregistrements et rangéesCréation de rangéesTransformations de DataFrameCréation de cadres de donnéesselect et selectExprConversion en types Spark (littéraux)Ajouter des colonnesRenommer les colonnesCaractères réservés et mots-clésSensibilité aux casSuppression des colonnesChanger le type d'une colonne (cast)Filtrage des lignesObtenir des rangées uniquesÉchantillons aléatoiresSéparations aléatoiresConcaténation et addition de lignes (Union)Trier les rangéesLimiteRépartir et fusionnerCollecte des rangs vers le conducteurConclusion
6. Travailler avec différents types de données
Où chercher les APIConversion en types SparkTravailler avec des booléensTravailler avec des nombresTravailler avec des cordesExpressions régulièresTravailler avec des dates et des horodatagesTravailler avec des zéros dans les donnéesCoalesceifnull, nullIf, nvl et nvl2chuteremplirremplacerCommanderTravailler avec des types complexesStructuresTableauxdiviserLongueur du tableauarray_containsexploserCartesTravailler avec JSONFonctions définies par l'utilisateurConclusion
7. Agrégats
Fonctions d'agrégationcomptercountDistinctapprox_count_distinctpremier et derniermin et maxsommesumDistinctavgVariance et écart-typeasymétrie et aplatissementCovariance et corrélationAgrégation de types complexesRegroupementRegroupement avec des expressionsRegroupement avec des cartesFonctions de la fenêtreRegrouper les ensemblesRouleauxCubeRegroupement des métadonnéesPivotFonctions d'agrégation définies par l'utilisateurConclusion

8. Joints
Expressions jointesTypes de jointuresJoints internesJoints externesJointures externes gauchesJointures externes droitesJoints à gaucheL'anti-gauche se joint à nousJoints naturelsJoints croisés (cartésiens)Défis liés à l'utilisation des jointuresJoints sur les types complexesGestion des noms de colonnes en doubleComment Spark effectue les jointuresStratégies de communicationConclusion
9. Sources de données
La structure de l'API des sources de donnéesLire la structure de l'APILes bases de la lecture des donnéesStructure de l'API d'écritureLes bases de l'écriture des donnéesFichiers CSVOptions CSVLire les fichiers CSVÉcriture de fichiers CSVFichiers JSONOptions JSONLire les fichiers JSONÉcrire des fichiers JSONFichiers ParquetLecture des fichiers ParquetÉcriture des fichiers ParquetDossiers de la CCOLecture des fichiers OrcÉcriture des fichiers OrcBases de données SQLLecture des bases de données SQLQuery PushdownÉcrire dans des bases de données SQLFichiers texteLecture de fichiers texteÉcrire des fichiers texteConcepts d'E/S avancésTypes de fichiers fractionnables et compressionLecture de données en parallèleÉcriture de données en parallèleÉcrire des types complexesGestion de la taille des fichiersConclusion
10. Spark SQL
Qu'est-ce que SQL ?Big Data et SQL : Apache HiveBig Data et SQL : Spark SQLRelation entre Spark et HiveComment exécuter les requêtes SQL de Spark ?CLI SQL de SparkL'interface SQL programmatique de SparkServeur SparkSQL Thrift JDBC/ODBCCatalogueTablesTables gérées par SparkCréation de tableauxCréation de tableaux externesInsertion dans les tableauxDescription des métadonnées des tablesActualiser les métadonnées des tablesAbandon des tablesTables de mise en cacheVuesCréation de vuesChute des vuesBases de donnéesCréation de bases de donnéesConfiguration de la base de donnéesAbandonner les bases de donnéesSélectionner les déclarationscas...quand...alors DéclarationsSujets avancésTypes complexesFonctionsSous-requêtesCaractéristiques diversesConfigurationsDéfinition des valeurs de configuration dans SQLConclusion
11. Jeux de données
Quand utiliser les ensembles de donnéesCréation d'ensembles de donnéesEn Java : EncodeursEn Scala : Classes de casActionsTransformationsFiltrageCartographieRejoins-nousRegroupement et agrégationConclusion
III. API de bas niveau
12. Ensembles de données distribuées résilientes (RDD)
Que sont les API de bas niveau ?Quand utiliser les API de bas niveau ?Comment utiliser les API de bas niveau ?À propos des RDDTypes de RDDQuand utiliser les RDD ?Ensembles de données et RDD de classes de casCréation de RDDInteropérer entre les DataFrames, les Datasets et les RDDsD'une collection localeÀ partir de sources de donnéesManipuler les RDDTransformationsdistinctesfiltrecartetrierSéparations aléatoiresActionsréduirecompterd'abordmax et minprendreSauvegarde des fichierssaveAsTextFileFichiers de séquenceFichiers HadoopMise en cachePoint de contrôleConduis les RDD vers les commandes du systèmemapPartitionsforeachPartitionglomConclusion
13. RDD avancés
Notions de base sur les valeurs clés (RDDs de valeurs clés)keyByMappage sur les valeursExtraction de clés et de valeursrecherchesampleByKeyAgrégationscountByKeyComprendre les implémentations de l'agrégationAutres méthodes d'agrégationCoGroupesRejoins-nousJointure intérieurefermetures éclairContrôler les partitionscoalescerrépartitionrepartition et tri à l'intérieur des partitionsPartitionnement personnaliséSérialisation personnaliséeConclusion
14. Variables partagées distribuées
Variables de diffusionAccumulateursExemple de baseAccumulateurs sur mesureConclusion
IV. Applications de la production
15. Comment Spark fonctionne-t-il sur un cluster ?
L'architecture d'une application SparkModes d'exécutionLe cycle de vie d'une application Spark (en dehors de Spark).Demande du clientLancerExécutionAchèvementLe cycle de vie d'une application Spark (Inside Spark)La session SparkSessionInstructions logiquesUn travail de SparkLes étapesTâchesDétails de l'exécutionLa formation d'un pipelinePersistance du mélangeConclusion
16. Développer des applications Spark
Rédaction d'applications SparkUne application simple basée sur ScalaÉcrire des applications PythonÉcrire des applications JavaTest des applications SparkPrincipes stratégiquesLes enseignements tactiquesConnexion aux cadres de tests unitairesConnexion aux sources de donnéesLe processus de développementLancer des applicationsExemples de lancement d'applicationsConfiguration des applicationsLa SparkConfPropriétés de l'applicationPropriétés d'exécutionPropriétés d'exécutionConfiguration de la gestion de la mémoireConfigurer le comportement de la lecture aléatoireVariables environnementalesPlanification des tâches au sein d'une applicationConclusion
17. Déployer Spark
Où déployer ton cluster pour exécuter les applications Spark ?Déploiement de grappes sur placeSpark dans le CloudResponsables de groupeMode autonomeSpark sur YARNConfiguration des applications Spark sur YARNSpark sur MesosConfigurations de déploiement sécuriséesConfigurations de la mise en réseau de la grappe.Planification des applicationsConsidérations diversesConclusion
18. Surveillance et débogage
Le paysage de la surveillanceCe qu'il faut surveillerProcessus du pilote et de l'exécuteurRequêtes, travaux, étapes et tâchesJournaux de SparkL'interface utilisateur de SparkAPI REST de SparkServeur d'historique de l'interface utilisateur SparkDébogage et premiers soins SparkLes emplois Spark ne démarrent pasErreurs avant l'exécutionErreurs pendant l'exécutionTâches lentes ou traînantesAgrégations lentesLenteur de l'adhésionLenteur des lectures et des écrituresDriver OutOfMemoryError ou Driver UnresponsiveExecutor OutOfMemoryError ou Executor UnresponsiveNuls inattendus dans les résultatsErreurs de manque d'espace sur le disqueErreurs de sérialisationConclusion
19. Optimisation des performances
Amélioration indirecte des performancesChoix de conceptionSérialisation des objets dans les RDDConfigurations de la grappePlanificationDonnées au reposConfigurations de la lecture aléatoirePression de la mémoire et collecte des déchetsAmélioration directe de la performanceParallélismeFiltrage amélioréRepartition et coalescenceFonctions définies par l'utilisateur (UDF)Stockage temporaire des données (cache)Rejoins-nousAgrégationsVariables de diffusionConclusion
V. Streaming
20. Principes de base du traitement des flux
Qu'est-ce que le traitement en continu ?Cas d'utilisation du traitement des fluxAvantages du traitement en continuLes défis du traitement en continuPoints de conception du traitement des fluxEnregistrement en temps réel et API déclarativesTemps de l'événement par rapport au temps de traitementExécution en continu ou par micro-lotsLes API de streaming de SparkL'API DStreamFlux structuréConclusion
21. Les bases du streaming structuré
Les bases du streaming structuréConcepts de baseTransformations et actionsSources d'entréeÉviersModes de sortieDéclencheursTraitement des événementsLe streaming structuré en actionTransformations sur les fluxSélections et filtrageAgrégationsRejoins-nousEntrée et sortieOù les données sont lues et écrites (sources et puits)Lecture de la source KafkaÉcrire dans le puits KafkaMode de sortie des données (modes de sortie)Lorsque les données sont émises (déclencheurs)API de flux de donnéesConclusion
22. Traitement événementiel et traitement avec état
Heure de l'événementTraitement avec étatTraitement arbitraire avec étatLes bases de l'événementielWindows à l'heure des événementsFenêtres à basculeTraiter les données tardives avec des filigranesSupprimer les doublons dans un fluxTraitement arbitraire avec étatTemps mortsModes de sortiemapGroupsWithStateflatMapGroupsWithStateConclusion
23. Streaming structuré en production
Tolérance des pannes et points de contrôleMise à jour de ta demandeMise à jour du code de ton application de streamingMise à jour de ta version de SparkDimensionner et redimensionner ton applicationMesures et surveillanceStatut de la requêteProgrès récentsSpark UIAlerteSurveillance avancée avec l'écouteur de fluxConclusion
VI. Analyse avancée et apprentissage automatique
24. Aperçu de l'analyse avancée et de l'apprentissage automatique
Une brève introduction à l'analyse avancéeApprentissage superviséRecommandationApprentissage non superviséAnalyses graphiquesLe processus d'analyse avancéeLa boîte à outils d'analyse avancée de SparkQu'est-ce que MLlib ?Concepts de haut niveau de la MLlibMLlib en actionIngénierie des fonctionnalités avec les transformateursEstimateursLa mise en place d'un pipeline pour notre flux de travailFormation et évaluationPersistance et application des modèlesModèles de déploiementConclusion
25. Prétraitement et ingénierie des caractéristiques
Formatage des modèles en fonction de ton cas d'utilisationTransformateursEstimateurs pour le prétraitementPropriétés du transformateurTransformateurs de haut niveauRFormulaTransformateurs SQLAssembleur de vecteursTravailler avec des fonctions continuesSeauMise à l'échelle et normalisationÉcran d'affichage standardTravailler avec des caractéristiques catégoriellesStringIndexerConversion des valeurs indexées en texteIndexation dans les vecteursEncodage à chaudTransformateurs de données textuellesTokenisation du texteSuppression des mots courantsCréer des combinaisons de motsConvertir les mots en représentations numériquesWord2VecManipulation des caractéristiquesPCAInteractionExpansion polynomialeSélection des caractéristiquesSélecteur de ChiSqSujets avancésTransformateurs persistantsÉcrire un transformateur personnaliséConclusion
26. Classification
Cas d'utilisationTypes de classificationClassification binaireClassification multi-classeClassification multi-labelModèles de classification dans MLlibExtensibilité du modèleRégression logistiqueHyperparamètres du modèleParamètres de formationParamètres de prédictionExempleRésumé du modèleArbres de décisionHyperparamètres du modèleParamètres de formationParamètres de prédictionForêt aléatoire et arbres boostés par gradientHyperparamètres du modèleParamètres de formationParamètres de prédictionNaive BayesHyperparamètres du modèleParamètres de formationParamètres de prédictionÉvaluateurs pour la classification et l'automatisation de la mise au point des modèlesParamètres d'évaluation détaillésClassificateur un contre unPerceptron multicoucheConclusion
27. Régression
Cas d'utilisationModèles de régression en MLlibExtensibilité du modèleRégression linéaireHyperparamètres du modèleParamètres de formationExempleRésumé de la formationRégression linéaire généraliséeHyperparamètres du modèleParamètres de formationParamètres de prédictionExempleRésumé de la formationArbres de décisionHyperparamètres du modèleParamètres de formationExempleForêts aléatoires et arbres boostés par gradientHyperparamètres du modèleParamètres de formationExempleMéthodes avancéesRégression de la survie (temps de défaillance accéléré)Régression isotoniqueÉvaluateurs et automatisation de la mise au point des modèlesMétriquesConclusion
28. Recommandation
Cas d'utilisationFiltrage collaboratif avec alternance des moindres carrésHyperparamètres du modèleParamètres de formationParamètres de prédictionExempleÉvaluateurs pour la recommandationMétriquesMétriques de régressionMétriques de classementExtraction de motifs fréquentsConclusion
29. Apprentissage non supervisé
Cas d'utilisationExtensibilité du modèlek-meansHyperparamètres du modèleParamètres de formationExempleRésumé des mesures de k-meansBissection des k-moyensHyperparamètres du modèleParamètres de formationExempleRésumé de la bissectrice k-meansModèles de mélanges gaussiensHyperparamètres du modèleParamètres de formationExempleRésumé du modèle de mélange gaussienAllocation de Dirichlet LatentHyperparamètres du modèleParamètres de formationParamètres de prédictionExempleConclusion
30. Analyses graphiques
Construire un graphiqueInterroger le graphiqueSous-graphesRecherche de motifsAlgorithmes graphiquesPageRankMesures des diplômes et des promotionsRecherche en largeur d'abordComposants connectésComposants fortement connectésTâches avancéesConclusion
31. Deep Learning
Qu'est-ce que le Deep Learning ?Façons d'utiliser le Deep Learning dans SparkBibliothèques de Deep LearningSoutien du réseau neuronal MLlibTensorFramesBigDLTensorFlowOnSparkDeepLearning4JPipelines de Deep LearningUn exemple simple avec les pipelines de Deep LearningMise en placeImages et cadres de donnéesApprentissage par transfertApplication des modèles populairesConclusion
VII. L'écosystème
32. Spécificités du langage : Python (PySpark) et R (SparkR et sparklyr).
PySparkDifférences fondamentales de PySparkIntégration de PandasR sur SparkSparkRétincelleConclusion
33. Écosystème et communauté
Paquets SparkUne liste abrégée des forfaits les plus populairesUtilisation des paquets SparkPaquets externesCommunautéSommet SparkRencontres localesConclusion
Index

Content preview from Spark : Le guide définitif

Chapitre 11. Jeux de données

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Les Datasets sont le type fondamental des API structurées. Nous avons déjà travaillé avec les DataFrames, qui sont des Datasets de type Row, et qui sont disponibles dans les différents langages de Spark. Les Datasets sont une fonctionnalité strictement liée au langage de la machine virtuelle Java (JVM) qui ne fonctionne qu'avec Scala et Java. En utilisant les Datasets, tu peux définir l'objet dont sera composée chaque ligne de ton Dataset. Dans Scala, il s'agira d'un objet de classe de cas qui définit essentiellement un schéma que tu peux utiliser, et dans Java, tu définiras un Java Bean. Les utilisateurs expérimentés font souvent référence aux Datasets comme étant "l'ensemble typé d'API" dans Spark. Pour plus d'informations, voir le chapitre 4.

Au chapitre 4, nous avons discuté du fait que Spark possède des types comme StringType, BigIntType, StructType, et ainsi de suite. Ces types spécifiques à Spark correspondent à des types disponibles dans chacun des langages de Spark, comme String, Integer, et Double. Lorsque tu utilises l'API DataFrame, tu ne crées pas de chaînes de caractères ou d'entiers, mais Spark manipule les données pour toi en manipulant l'objet Row. En fait, si tu utilises Scala ou Java, tous les "DataFrames" sont en réalité des Datasets de type Row. Pour prendre en charge efficacement les objets spécifiques ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341619975

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Spark : Le guide définitif

by Bill Chambers, Matei Zaharia

Chapitre 11. Jeux de données

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.