Chapitre 1. Introduction à Spark et PySpark
Spark est un puissant moteur d'analyse pour le traitement des données à grande échelle qui vise la rapidité, la facilité d'utilisation et l'extensibilité des applications big data. C'est une technologie éprouvée et largement adoptée, utilisée par de nombreuses entreprises qui traitent des big data tous les jours. Bien que le langage "natif" de Spark soit Scala (la majeure partie de Spark est développée en Scala), il fournit également des API de haut niveau en Java, Python et R.
Dans ce livre, nous utiliserons Python via PySpark, une API qui expose le modèle de programmation Spark à Python. Python étant le langage de programmation le plus accessible et l'API de Spark étant puissante et expressive, la simplicité de PySpark en fait le meilleur choix pour nous. PySpark est une interface pour Spark dans le langage de programmation Python qui offre les deux fonctionnalités importantes suivantes :
-
Il nous permet d'écrire des applications Spark à l'aide des API Python.
-
Il fournit le shell PySpark pour analyser les données de manière interactive dans unenvironnement distribué.
L'objectif de ce chapitre est de te présenter PySpark comme le principal composant de l'écosystème Spark et de te montrer qu'il peut être utilisé efficacement pour des tâches big data telles que les opérations ETL, l'indexation de milliards ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access