Overview
La vitesse, la facilité d'utilisation, les analyses sophistiquées et la prise en charge multilingue d'Apache Spark font de la connaissance pratique de ce cadre de calcul en cluster une compétence requise pour les ingénieurs et les scientifiques des données. Grâce à ce guide pratique, toute personne cherchant à s'initier à Spark apprendra des algorithmes et des exemples pratiques à l'aide de PySpark.
Dans chaque chapitre, l'auteur Mahmoud Parsian te montre comment résoudre un problème de données avec un ensemble de transformations et d'algorithmes Spark. Tu apprendras à t'attaquer à des problèmes impliquant l'ETL, les modèles de conception, les algorithmes d'apprentissage automatique, le partitionnement des données et l'analyse génomique. Chaque recette détaillée comprend des algorithmes PySpark utilisant le pilote PySpark et le script shell.
Avec ce livre, tu pourras :
- Apprendre à sélectionner les transformations Spark pour obtenir des solutions optimisées.
- Explorer de puissantes transformations et réductions, notamment reduceByKey(), combineByKey() et mapPartitions().
- Comprendre le partitionnement des données pour des requêtes optimisées.
- Construire et appliquer un modèle en utilisant les modèles de conception PySpark
- Appliquer les algorithmes de recherche de motifs aux données graphiques
- Analyser des données graphiques en utilisant l'API GraphFrames
- Appliquer les algorithmes PySpark aux données cliniques et génomiques
- Apprendre à utiliser et à appliquer l'ingénierie des caractéristiques dans les algorithmes de ML.
- Comprendre et utiliser des modèles de conception de données pratiques et pragmatiques.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access