Chapitre 2. Une introduction en douceur à Spark
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Maintenant que notre leçon d'histoire sur Apache Spark est terminée, il est temps de commencer à l'utiliser et à l'appliquer ! Ce chapitre présente une introduction en douceur à Spark, dans laquelle nous parcourrons l'architecture de base d'un cluster, l'application Spark et les API structurées de Spark à l'aide de DataFrames et de SQL. En cours de route, nous aborderons la terminologie et les concepts de base de Spark afin que tu puisses commencer à l'utiliser immédiatement. Commençons par quelques informations de base.
L'architecture de base de Spark
Généralement, quand tu penses à un "ordinateur", tu penses à une machine posée sur ton bureau à la maison ou au travail. Cette machine fonctionne parfaitement bien pour regarder des films ou travailler avec un tableur. Cependant, comme beaucoup d'utilisateurs en ont probablement fait l'expérience un jour ou l'autre, il y a certaines choses que ton ordinateur n'est pas assez puissant pour accomplir. Le traitement des données est un domaine particulièrement difficile. Les machines individuelles n'ont pas assez de puissance et de ressources pour effectuer des calculs sur d'énormes quantités d'informations (ou l'utilisateur n'a probablement pas le temps d'attendre que le calcul se termine). Un cluster, ou groupe d'ordinateurs, met en commun les ressources ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access