book

Apprendre Spark, 2ème édition

Name: Apprendre Spark, 2ème édition
ISBN: 9798341609167

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

November 2024

Intermediate to advanced

400 pages

11h 12m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Avant-propos
Préface
À qui s'adresse ce livreComment le livre est organiséComment utiliser les exemples de codeLogiciel et configuration utilisésConventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
1. Introduction à Apache Spark : Un moteur d'analyse unifié
La genèse de SparkBig Data et informatique distribuée chez GoogleHadoop chez Yahoo !Les premières années de Spark à l'AMPLabQu'est-ce que Apache Spark ?La vitesseFacilité d'utilisationModularitéExtensibilitéAnalyse unifiéeLes composants d'Apache Spark en tant que pile unifiéeL'exécution distribuée d'Apache SparkL'expérience du développeurQui utilise Spark, et pour quoi faire ?Adoption et expansion de la communauté
2. Téléchargement d'Apache Spark et mise en route
Étape 1 : Téléchargement d'Apache SparkRépertoires et fichiers de SparkÉtape 2 : utilisation du shell Scala ou PySparkUtilisation de la machine localeÉtape 3 : comprendre les concepts de l'application Spark.Application Spark et SparkSessionSpark JobsLes étapes du SparkTâches SparkTransformations, actions et évaluation paresseuseTransformations étroites et largesL'interface utilisateur de SparkTa première application autonomeCompte les M&Ms pour le monstre de cuisineConstruire des applications autonomes en ScalaRésumé
3. Les API structurées d'Apache Spark
Spark : Qu'est-ce qui se cache sous un RDD ?Structurer SparkPrincipaux mérites et avantagesL'API DataFrameLes types de données de base de SparkTypes de données structurées et complexes de SparkSchémas et création de cadres de donnéesColonnes et expressionsRangsOpérations courantes sur les DataFramesExemple de DataFrame de bout en boutL'API des ensembles de donnéesObjets typés, objets non typés et rangées génériquesCréation d'ensembles de donnéesOpérations sur les jeux de donnéesExemple d'ensemble de données de bout en boutLes cadres de données et les ensembles de donnéesQuand utiliser les RDDSpark SQL et le moteur sous-jacentL'optimiseur de catalyseurRésumé
4. Spark SQL et les DataFrames : Introduction aux sources de données intégrées
Utilisation de Spark SQL dans les applications SparkExemples de requêtes de baseTables et vues SQLTables gérées ou non géréesCréation de bases de données et de tables SQLCréation de vuesVisualisation des métadonnéesMise en cache des tables SQLLire les tableaux dans les DataFramesSources de données pour les cadres de données et les tables SQLDataFrameReaderDataFrameWriterParquetJSONCSVAvroORCImagesFichiers binairesRésumé
5. Spark SQL et DataFrames : Interagir avec des sources de données externes
Spark SQL et Apache HiveFonctions définies par l'utilisateurEffectuer des requêtes avec le Spark SQL Shell, Beeline et TableauUtilisation du shell SQL de SparkTravailler avec BeelineTravailler avec TableauSources de données externesBases de données JDBC et SQLPostgreSQLMySQLAzure Cosmos DBMS SQL ServerAutres sources externesFonctions d'ordre supérieur dans les DataFrames et Spark SQLOption 1 : Éclater et collecterOption 2 : Fonction définie par l'utilisateurFonctions intégrées pour les types de données complexesFonctions d'ordre supérieurLes DataFrames courantes et les opérations SQL de SparkSyndicatsRejoins-nousWindowsModificationsRésumé
6. Spark SQL et les ensembles de données
Une seule API pour Java et ScalaClasses de cas et JavaBeans Scala pour les ensembles de donnéesTravailler avec des ensembles de donnéesCréation d'un échantillon de donnéesTransformer les données d'un échantillonGestion de la mémoire pour les ensembles de données et les cadres de donnéesEncodeurs de jeux de donnéesFormat interne de Spark par rapport au format objet de JavaSérialisation et désérialisation (SerDe)Coûts d'utilisation des ensembles de donnéesStratégies pour réduire les coûtsRésumé
7. Optimiser et régler les applications Spark
Optimiser et régler Spark pour plus d'efficacitéAffichage et réglage des configurations d'Apache SparkMise à l'échelle de Spark pour les grandes charges de travail.Mise en cache et persistance des donnéesDataFrame.cache()DataFrame.persist()Quand mettre en cache et persisterQuand ne pas mettre en cache et persisterUne famille de Spark se joint à nousDiffusion Hash JoinMélanger trier fusionner joindreInspecter l'interface utilisateur de SparkVoyage à travers les onglets de l'interface utilisateur SparkRésumé
8. Flux structuré
Évolution du moteur de traitement de flux Apache SparkL'avènement du traitement de flux par micro-lotsLeçons tirées de la diffusion en continu de Spark (DStreams)La philosophie du flux structuréLe modèle de programmation du flux structuréLes principes de base d'une requête structurée en continuCinq étapes pour définir une requête en continuSous le capot d'une requête de flux activeRécupération des défaillances avec des garanties exactesSuivi d'une requête activeSources et puits de données en continuFichiersApache KafkaSources et puits de flux personnalisésTransformations de donnéesExécution incrémentale et état de fluxTransformations sans étatTransformations avec étatAgrégations de flux avec étatAgrégations non basées sur le tempsAgrégations avec des fenêtres de temps événementielJoints en streamingJonction flux-statiqueJoints de flux à fluxCalculs arbitraires avec étatModélisation d'opérations arbitraires avec état avec mapGroupsWithState()Utilisation des délais d'attente pour gérer les groupes inactifsGénéralisation avec flatMapGroupsWithState()Optimisation des performancesRésumé

9. Construire des lacs de données fiables avec Apache Spark.
L'importance d'une solution de stockage optimaleBases de donnéesUne brève introduction aux bases de donnéesLire et écrire dans les bases de données à l'aide d'Apache Spark.Limites des bases de donnéesLacs de donnéesUne brève introduction aux lacs de donnéesLire et écrire dans les lacs de données à l'aide d'Apache Spark.Limites des lacs de donnéesMaisons de lac : La prochaine étape dans l'évolution des solutions de stockageApache HudiApache IcebergDelta LakeConstruire des entrepôts de données (Lakehouses) avec Apache Spark et Delta LakeConfiguration d'Apache Spark avec Delta LakeChargement des données dans une table Delta LakeChargement des flux de données dans une table du Delta LakeRenforcer le schéma en écriture pour éviter la corruption des donnéesÉvolution des schémas pour s'adapter à l'évolution des donnéesTransformer les données existantesVérification des modifications de données à l'aide de l'historique des opérationsInterroger les instantanés précédents d'une table avec le voyage dans le tempsRésumé
10. Apprentissage automatique avec MLlib
Qu'est-ce que l'apprentissage automatique ?Apprentissage superviséApprentissage non superviséPourquoi Spark pour l'apprentissage automatique ?Concevoir des pipelines d'apprentissage automatiqueIngestion et exploration des donnéesCréation d'ensembles de données de formation et de testPréparer les fonctionnalités avec les transformateursComprendre la régression linéaireUtiliser des estimateurs pour construire des modèlesCréation d'un pipelineÉvaluer les modèlesSauvegarde et chargement des modèlesRéglage des hyperparamètresModèles basés sur les arbresValidation croisée k-FoldOptimiser les pipelinesRésumé
11. Gérer, déployer et mettre à l'échelle les pipelines d'apprentissage automatique avec Apache Spark.
Gestion des modèlesMLflowOptions de déploiement de modèles avec MLlibLotStreamingModèles d'exportation pour l'inférence en temps réelTirer parti de Spark pour les modèles non-MLlibPandas UDFsSpark pour le réglage distribué des hyperparamètres.Résumé
12. Épilogue : Apache Spark 3.0
Spark Core et Spark SQLÉlagage dynamique des partitionsExécution adaptative des requêtesConseils pour les jointures SQLCatalog Plugin API et DataSourceV2Planificateur conscient de l'accélérateurFlux structuréPySpark, les UDF de Pandas et les API de fonctions de Pandas.Des UDF Pandas redessinés avec des indications de type PythonPrise en charge des itérateurs dans les UDF PandasNouvelles API de fonctions PandasFonctionnalité modifiéeLangues supportées et dépréciéesChangements apportés aux API DataFrame et DatasetCommandes DataFrame et SQL ExplainRésumé
Index
À propos des auteurs

Content preview from Apprendre Spark, 2ème édition

Chapitre 9. Construire des lacs de données fiables avec Apache Spark

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Dans les chapitres précédents, tu as appris à utiliser facilement et efficacement Apache Spark pour construire des pipelines de traitement de données évolutifs et performants. Cependant, dans la pratique, l'expression de la logique de traitement ne résout que la moitié du problème de bout en bout de la construction d'un pipeline. Pour un ingénieur de données, un scientifique de données ou un analyste de données, l'objectif final de la construction de pipelines est d'interroger les données traitées et d'en tirer des enseignements. Le choix de la solution de stockage détermine la robustesse et les performances de bout en bout (c'est-à-dire des données brutes aux connaissances) du pipeline de données.

Dans ce chapitre, nous allons d'abord aborder les principales caractéristiques d'une solution de stockage auxquelles tu dois faire attention. Ensuite, nous aborderons deux grandes catégories de solutions de stockage, les bases de données et les lacs de données, et nous verrons comment utiliser Apache Spark avec elles. Enfin, nous présenterons la prochaine vague de solution de stockage, appelée lakehouses, et nous explorerons certains des nouveaux moteurs de traitement open source dans cet espace.

L'importance d'une solution de stockage optimale

Voici quelques-unes des propriétés que l'on ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341609167

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Apprendre Spark, 2ème édition

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Chapitre 9. Construire des lacs de données fiables avec Apache Spark

L'importance d'une solution de stockage optimale

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.