Overview
Les données sont plus volumineuses, arrivent plus vite et se présentent sous des formats variésâ??et tout cela doit être traité à l'échelle pour l'analytique ou l'apprentissage automatique. Mais comment traiter efficacement des charges de travail aussi variées ? C'est là qu'intervient Apache Spark.
Mise à jour pour inclure Spark 3.0, cette deuxième édition montre aux ingénieurs et aux scientifiques des données pourquoi la structure et l'unification dans Spark sont importantes. Plus précisément, ce livre explique comment effectuer des analyses de données simples et complexes et employer des algorithmes d'apprentissage automatique. Grâce à des explications étape par étape, des extraits de code et des carnets de notes, tu pourras :
- Apprendre les API structurées de haut niveau de Python, SQL, Scala ou Java.
- Comprendre les opérations Spark et le moteur SQL
- Inspecter, régler et déboguer les opérations Spark avec les configurations Spark et l'interface utilisateur Spark.
- Se connecter à des sources de données : JSON, Parquet, CSV, Avro, ORC, Hive, S3 ou Kafka.
- Effectuer des analyses sur des données en lot et en continu à l'aide de Structured Streaming.
- Construire des pipelines de données fiables avec Delta Lake et Spark en open source.
- Développer des pipelines d'apprentissage automatique avec MLlib et produire des modèles avec MLflow
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access