Chapitre 2. Téléchargement d'Apache Spark et mise en route
Dans ce chapitre, nous allons t'installer avec Spark et parcourir trois étapes simples que tu peux suivre pour commencer à écrire ta première application autonome.
Nous utiliserons le mode local, où tout le traitement est effectué sur une seule machine dans un shell Spark-c'est un moyen facile d'apprendre le framework, en fournissant une boucle de rétroaction rapide pour effectuer des opérations Spark de manière itérative. En utilisant un shell Spark, tu peux prototyper des opérations Spark avec de petits ensembles de données avant d'écrire une application Spark complexe, mais pour les grands ensembles de données ou le travail réel où tu veux profiter des avantages de l'exécution distribuée, le mode local n'est pas adapté - tu voudras plutôt utiliser les modes de déploiement YARN ou Kubernetes.
Bien que le shell Spark ne prenne en charge que Scala, Python et R, tu peux écrire une application Spark dans n'importe lequel des langages pris en charge (y compris Java) et émettre des requêtes en Spark SQL. Nous attendons toutefois de toi que tu sois un peu familier avec le langage de ton choix.
Étape 1 : Téléchargement d'Apache Spark
Pour commencer, va sur la page de téléchargement de Spark, sélectionne "Pre-built for Apache Hadoop 2.7" dans le menu déroulant de l'étape 2, et clique sur le lien ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access