book

Algorithmes de données avec Spark

Name: Algorithmes de données avec Spark
Author: Mahmoud Parsian
ISBN: 9798341609709

by Mahmoud Parsian

November 2024

Intermediate to advanced

438 pages

10h 40m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Avant-propos
Préface
Pourquoi j'ai écrit ce livreÀ qui s'adresse ce livreComment ce livre est organiséConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
I. Principes de base
1. Introduction à Spark et PySpark
Pourquoi Spark pour l'analyse des données ?L'écosystème SparkArchitecture SparkLa puissance de PySparkArchitecture de PySparkAbstractions de données SparkExemples de RDDOpérations Spark RDDExemples de DataFrameUtilisation du shell PySparkLancement du shell PySparkCréer un RDD à partir d'une collectionAgrégation et fusion des valeurs des clésFiltrer les éléments d'un RDDRegrouper les touches similairesAgrégation de valeurs pour des clés similairesExemple ETL avec DataFramesExtractionTransformationChargementRésumé
2. Les transformations en action
Exemple de comptage des bases de l'ADNLe problème du nombre de bases d'ADNFormat FASTAEchantillon de donnéesSolution de comptage des bases d'ADN 1Étape 1 : Créer un RDD[String] à partir de l'entréeÉtape 2 : Définir une fonction de mappageÉtape 3 : Trouver les fréquences des lettres de l'ADNAvantages et inconvénients de la solution 1Solution de comptage des bases d'ADN 2Étape 1 : Créer un RDD[String] à partir de l'entréeÉtape 2 : Définir une fonction de mappageÉtape 3 : Trouver les fréquences des lettres de l'ADNAvantages et inconvénients de la solution 2Solution de comptage des bases d'ADN 3La transformation mapPartitions()Étape 1 : Créer un RDD[String] à partir de l'entréeÉtape 2 : Définir une fonction pour gérer une partitionÉtape 3 : Appliquer la fonction personnalisée à chaque partitionAvantages et inconvénients de la solution 3Résumé
3. Transformations du mappeur
Abstractions de données et mappeursQue sont les transformations ?Transformations paresseusesLa transformation map()Mappage de DataFrameLa transformation flatMap()map() versus flatMap()Appliquer flatMap() à un DataFrameLa transformation mapValues()La transformation flatMapValues()La transformation mapPartitions()Gestion des partitions videsAvantages et inconvénientsDataFrames et transformation mapPartitions()Résumé
4. Réductions de Spark
Création de paires de RDDTransformations de réductionRéductions de SparkExemple d'échauffement simpleRésoudre avec reduceByKey()Résoudre avec groupByKey()Résoudre avec aggregateByKey()Résoudre avec combineByKey()Qu'est-ce qu'un monoïde ?Exemples de monoïdes et de non-monoïdesLe problème du filmEnsemble de données d'entrée à analyserLa transformation aggregateByKey()Première solution en utilisant aggregateByKey()Deuxième solution en utilisant aggregateByKey()Solution complète de PySpark en utilisant groupByKey()Solution complète de PySpark à l'aide de reduceByKey()Solution complète de PySpark en utilisant combineByKey()L'étape de la réductionÉtape de mélange pour groupByKey()Étape de mélange pour reduceByKey()Résumé
II. Travailler avec des données
5. Répartition des données
Introduction aux partitionsPartitions dans SparkGestion des partitionsPartitionnement par défautPartitionnement explicitePartitionnement physique pour les requêtes SQLPartitionnement physique des données dans SparkPartition au format textePartition au format ParquetComment interroger des données partitionnéesExemple d'Amazon AthenaRésumé
6. Algorithmes graphiques
Introduction aux graphiquesL'API GraphFramesComment utiliser les GraphFramesFonctions et attributs des GraphFramesAlgorithmes GraphFramesTrouver des trianglesRecherche de motifsApplications dans le monde réelAnalyse des gènesRecommandations socialesCercles FacebookComposants connectésAnalyse des données de volRésumé

7. Interagir avec des sources de données externes
Bases de données relationnellesLecture d'une base de donnéesÉcrire un DataFrame dans une base de donnéesLecture de fichiers texteLire et écrire des fichiers CSVLire les fichiers CSVÉcriture de fichiers CSVLire et écrire des fichiers JSONLire les fichiers JSONÉcrire des fichiers JSONLire et écrire sur Amazon S3Lecture à partir d'Amazon S3Écrire sur Amazon S3Lecture et écriture des fichiers HadoopLecture des fichiers texte HadoopÉcriture de fichiers texte HadoopLire et écrire des fichiers de séquences HDFSLire et écrire des fichiers ParquetÉcriture des fichiers ParquetLecture des fichiers ParquetLire et écrire des fichiers AvroLecture des fichiers AvroÉcrire des fichiers AvroLire et écrire dans MS SQL ServerÉcriture sur le serveur MS SQLLecture à partir de MS SQL ServerLire les fichiers d'imagesCréation d'un tableau de données à partir d'imagesRésumé
8. Algorithmes de classement
Rang ProduitCalcul du produit du rangFormalisation du produit de rangExemple de produit de classementSolution PySparkPageRankCalcul itératif de PageRankPageRank personnalisé dans PySpark à l'aide de RDDsPageRank personnalisé dans PySpark à l'aide d'une matrice d'adjacence.PageRank avec GraphFramesRésumé
III. Modèles de conception de données
9. Modèles classiques de conception de données
Entrée-Carte-SortieSolution RDDSolution DataFrameFonctionnalité du mappeur platEntrée-Filtre-SortieSolution RDDSolution DataFrameFiltre DataFrameEntrée-Carte-Réduction-SortieSolution RDDSolution DataFrameEntrée-Multiples-Cartes-Réduire-SortieSolution RDDSolution DataFrameCarte d'entrée-Combineur-Réduire-SortieEntrée-MapPartitions-Réduire-SortieIndex inverséÉnoncé du problèmeEntréeSortieSolution PySparkRésumé
10. Modèles pratiques de conception de données
Combinaison dans le mappeurAlgorithme MapReduce de baseCombinaison dans le mappeur par enregistrementCombinaison In-Mapper par partitionTop 10Top-N formaliséSolution PySparkTrouver les 10 derniersMinMaxSolution 1 : MapReduce classiqueSolution 2 : le triSolution 3 : mapPartitions() de SparkLe motif composite et les monoïdesMonoïdesExemples monoïdaux et non monoïdauxExemple MapReduce non monoïdeExemple de MapReduce monoïdeMise en œuvre par PySpark de la moyenne monoïdale.Les foncteurs et les monoïdesConclusion sur l'utilisation des monoïdesMise en binômeTriRésumé
11. Modèles de conception de la jonction
Introduction à l'opération JoinRejoindre dans MapReducePhase de la cartePhase de réductionMise en œuvre dans PySparkJointure côté carte à l'aide de RDDJointure côté carte à l'aide de cadres de donnéesÉtape 1 : Créer un cache pour les aéroportsÉtape 2 : Créer un cache pour les compagnies aériennesÉtape 3 : Créer un tableau des faitsÉtape 4 : Appliquer la jointure côté carteJoints efficaces à l'aide de filtres de BloomIntroduction aux filtres de BloomUn exemple simple de filtre de BloomFiltres de Bloom en PythonUtilisation des filtres de Bloom dans PySparkRésumé
12. Ingénierie des fonctionnalités dans PySpark
Introduction à l'ingénierie des fonctionnalitésAjout de nouvelles fonctionnalitésApplication des UDFCréation de pipelinesBinarisation des donnéesImputationTokenisationTokenizerRegexTokenizerTokenisation avec un pipelineLa normalisationNormalisationMise à l'échelle d'une colonne à l'aide d'un pipelineUtilisation de MinMaxScaler sur plusieurs colonnesNormalisation à l'aide d'un normalisateurIndexation des chaînes de caractèresApplication de StringIndexer à une seule colonneAppliquer StringIndexer à plusieurs colonnesAssemblage de vecteursSeauSeau d'eauQuantileDiscretizerTransformation en logarithmeEncodage à chaudTF-IDFChasseur d'imagesSQLTransformerRésumé
Index
A propos de l'auteur

Content preview from Algorithmes de données avec Spark

Chapitre 5. Partitionnement des données

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Le partitionnement est défini comme "l'action de diviser ; la séparation par la création d'une frontière qui divise ou maintient à l'écart." Le partitionnement des données est utilisé dans des outils comme Spark, Amazon Athena et Google BigQuery pour améliorer les performances d'exécution des requêtes. Pour faire évoluer les solutions big data, les données sont divisées en partitions qui peuvent être gérées, consultées et exécutées séparément et en parallèle.

Comme nous l'avons vu dans les chapitres précédents de ce livre, Spark divise les données en morceaux plus petits, appelés partitions, puis traite ces partitions de manière parallèle (de nombreuses partitions peuvent être traitées simultanément) à l'aide d'exécuteurs sur les nœuds de travail. Par exemple, si ton entrée comporte 100 milliards d'enregistrements, alors Spark pourrait la diviser en 10 000 partitions, où chaque partition aura environ 10 millions d'éléments :

Nombre total d'enregistrements : 100,000,000,000
Nombre de partitions : 10,000
Nombre d'éléments par partition : 10,000,000
Parallélisme maximal possible : 10 000

Note

Par défaut, Spark met en œuvre le partitionnement basé sur le hachage avec un HashPartitioner, qui utilise la fonction Object.hashCode() de Java.

Le partitionnement des données peut améliorer la facilité de gestion ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341609709

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Algorithmes de données avec Spark

by Mahmoud Parsian

Chapitre 5. Partitionnement des données

Note

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.