book

Étincelles haute performance

Name: Étincelles haute performance
ISBN: 9798341611894

by Holden Karau, Rachel Warren

November 2024

Intermediate to advanced

358 pages

11h 24m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Première édition NotesLivres et matériel de soutienConventions utilisées dans ce livreUtiliser des exemples de codeO'Reilly SafariComment contacter les auteursComment nous contacterRemerciements
1. Introduction à Spark haute performance
Qu'est-ce que Spark et pourquoi la performance est-elle importante ?Ce que tu peux attendre de ce livreVersions SparkPourquoi Scala ?Pour être un expert en Spark, tu dois quand même apprendre un peu de Scala.L'API Spark Scala est plus facile à utiliser que l'API Java.Scala est plus performant que PythonPourquoi pas Scala ?Apprendre ScalaConclusion
2. Comment fonctionne Spark ?
Comment Spark s'intègre-t-il dans l'écosystème du big data ?Composants SparkModèle Spark de calcul parallèle : RDDsÉvaluation paresseusePersistance en mémoire et gestion de la mémoireL'immuabilité et l'interface RDDTypes de RDDFonctions sur les RDD : Transformations et actionsDépendances larges ou étroitesPlanification des tâches SparkRépartition des ressources entre les applicationsL'application SparkL'anatomie d'un emploi SparkLe DAGEmploisLes étapesTâchesConclusion
3. DataFrames, Datasets et Spark SQL
Démarrer avec SparkSession (ou HiveContext ou SQLContext)Dépendances de Spark SQLGestion des dépendances de SparkÉviter les JAR HiveNotions de base sur les schémasAPI DataFrameTransformationsTransformations multi-dataFrameLes vieilles requêtes SQL et l'interaction avec les données HiveReprésentation des données dans les cadres de données et les ensembles de donnéesTungstèneFonctions de chargement et de sauvegarde des donnéesDataFrameWriter et DataFrameReaderFormatsModes de sauvegardeCloisons (découverte et écriture)Jeux de donnéesInteropérabilité avec les RDD, les cadres de données et les collections localesLe typage fort au moment de la compilationTransformations fonctionnelles plus faciles (RDD "comme")Transformations relationnellesTransformations relationnelles multi-donnéesOpérations groupées sur les ensembles de donnéesExtension avec les fonctions définies par l'utilisateur et les fonctions agrégées (UDF, UDAF)Optimiseur de requêtePlans logiques et physiquesGénération de codesPlans de requête volumineux et algorithmes itératifsDébogage des requêtes SQL de SparkServeur JDBC/ODBCConclusion
4. Joints (SQL et Core)
Spark se joint à nousChoix d'un type de jointureChoisir un plan d'exécutionLes jointures SQL de SparkJoints de DataFrameJointures de jeux de donnéesConclusion
5. Transformations efficaces
Transformations étroites ou largesImplications pour la performanceImplications pour la tolérance aux pannesLe cas particulier de coalesceQuel type de RDD ta transformation renvoie-t-elle ?Minimiser la création d'objetsRéutiliser des objets existantsUtiliser des structures de données plus petitesTransformations d'itérateur à itérateur avec mapPartitionsQu'est-ce qu'une transformation d'itérateur à itérateur ?Avantages de l'espace et du tempsUn exempleOpérations de réglageRéduire les frais d'installationVariables partagéesVariables de diffusionAccumulateursRéutilisation des RDDCas de réutilisationDécider si Recomputer est suffisamment peu coûteuxTypes de réutilisation : Cache, Persistance, Point de contrôle, Mélange des fichiersAlluxio (né Tachyon)Mise en cache LRUConsidérations sur les grappes bruyantesInteraction avec les accumulateursConclusion
6. Travailler avec des données clé/valeur
L'exemple de Boucle d'orBoucle d'or version 0 : solution itérativeComment utiliser les fonctions PairRDDFunctions et OrderedRDDFunctions ?Actions sur les paires clé/valeurPourquoi la fonction groupByKey est-elle si dangereuse ?Boucles d'or Version 1 : solution groupByKeyChoisir une opération d'agrégationDictionnaire des opérations d'agrégation avec considérations sur les performancesOpérations RDD multiplesCo-groupementPartitionneurs et données clé/valeurUtilisation de l'objet partitionneur de SparkPartitionnement par hachagePartitionnement des plagesPartitionnement personnaliséPréserver les informations de partitionnement à travers les transformationsExploiter les RDD co-localisés et co-partitionnésDictionnaire des fonctions de mappage et de partitionnement PairRDDFunctionsDictionnaire des opérations OrderedRDDOperationsTri par deux clés avec SortByKeyTri secondaire et repartitionAndSortWithinPartitionsExploiter repartitionAndSortWithinPartitions pour une fonction de regroupement par clé et de tri des valeursComment ne pas trier selon deux ordresBoucle d'or Version 2 : Tri secondaireUne approche différente de Boucle d'orVersion 3 de Boucles d'or : trier sur les valeurs des cellulesDétection des traînards et données déséquilibréesRetour à Boucle d'or (encore)Version 4 de Boucles d'Or : Réduire à Distinct sur chaque partitionConclusion
7. Aller au-delà de Scala
Au-delà de Scala au sein de la JVMAu-delà de Scala, et au-delà de la JVMComment fonctionne PySpark ?Comment fonctionne SparkRSpark.jl (Julia Spark)Comment fonctionne Eclair JSSpark sur le Common Language Runtime (CLR)-C# et ses amisAppeler d'autres langues à partir de SparkUtilisation de Pipe and FriendsJNIJava Native Access (JNA)Sous tout, il y a FORTRANAccéder au GPUL'avenirConclusion
8. Test et validation
Tests unitairesTests unitaires généraux de SparkMocker les RDDObtenir des données de testGénérer de grands ensembles de donnéesÉchantillonnageVérification des propriétés avec ScalaCheckCalcul de la différence de RDDTest d'intégrationChoix de l'environnement de test d'intégrationVérification des performancesCompteurs Spark pour la vérification des performancesProjets de vérification des performancesValidation de l'emploiConclusion
9. Spark MLlib et ML
Choisir entre Spark MLlib et Spark MLTravailler avec MLlibPremiers pas avec MLlib (organisation et importations)Encodage des caractéristiques de MLlib et préparation des donnéesMise à l'échelle et sélection des caractéristiquesFormation au modèle MLlibPrévoirServir et persévérerÉvaluation du modèleTravailler avec Spark MLOrganisation et importations de Spark MLLes étapes du pipelineExplique ParamsEncodage des donnéesNettoyage des donnéesModèles Spark MLTout regrouper dans un pipelineFormer un pipelineAccéder aux différentes étapesPersistance des données et Spark MLÉtendre les pipelines de ML de Spark avec tes propres algorithmes.Persistance des modèles et des pipelines et mise au service avec Spark ML.Considérations générales sur le serviceConclusion

10. Composants et emballages de Spark
Traitement des flux avec SparkSources et puitsIntervalles entre les lotsIntervalles de contrôle des donnéesConsidérations pour les DStreamsConsidérations relatives à la diffusion en continu structuréeMode haute disponibilité (ou gestion de la défaillance du pilote ou point de contrôle)GraphXUtilisation des paquets et des bibliothèques communautairesCréation d'un paquet SparkConclusion
A. Mise au point, débogage et autres choses que les développeurs aiment prétendre ne pas exister
Optimisation de Spark et dimensionnement du clusterComment ajuster les réglages de SparkComment déterminer les informations pertinentes sur ta grappe ?Paramètres de base du noyau Spark : Combien de ressources allouer à l'application Spark ?Calcul de la surcharge de mémoire de l'exécuteur et du piloteQuelle est la taille du conducteur de Spark ?Quelques grands exécuteurs ou de nombreux petits exécuteurs ?Allocation des ressources de la grappe et allocation dynamiqueDiviser l'espace au sein d'un exécuteurNombre et taille des partitionsOptions de sérialisationKryoQuelques techniques de débogage supplémentaires
Index

Content preview from Étincelles haute performance

Chapitre 1. Introduction à Spark haute performance

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Ce chapitre donne un aperçu de ce que nous espérons que tu pourras apprendre dans ce livre et fait de son mieux pour te convaincre d'apprendre Scala. N'hésite pas à passer directement au chapitre 2 si tu sais déjà ce que tu cherches et si tu utilises Scala (ou si tu as jeté ton dévolu sur un autre langage).

Qu'est-ce que Spark et pourquoi la performance est-elle importante ?

Apache Spark est un système de calcul distribué généraliste à hautes performances qui est devenu le projet open source Apache le plus actif, avec plus de 1 000 contributeurs actifs.¹ Spark nous permet de traiter de grandes quantités de données, au-delà de ce qui peut tenir sur une seule machine, avec une API de haut niveau et relativement facile à utiliser. La conception et l'interface de Spark sont uniques, et c'est l'un des systèmes les plus rapides de son genre. De façon unique, Spark nous permet d'écrire la logique des transformations de données et des algorithmes d'apprentissage automatique d'une manière qui est parallélisable, mais relativement agnostique au niveau du système. Il est donc souvent possible d'écrire des calculs qui sont rapides pour des systèmes de stockage distribués de nature et de taille variables.

Cependant, malgré ses nombreux avantages et l'engouement autour de Spark, l'implémentation la plus simple ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341611894

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Étincelles haute performance

by Holden Karau, Rachel Warren

Chapitre 1. Introduction à Spark haute performance

Qu'est-ce que Spark et pourquoi la performance est-elle importante ?

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.