Chapitre 1. Introduction à Apache Spark : Un moteur d'analyse unifié
Ce chapitre expose les origines d'Apache Spark et sa philosophie sous-jacente. Il passe également en revue les principaux composants du projet et son architecture distribuée. Si tu connais bien l'histoire de Spark et les concepts de haut niveau, tu peux passer ce chapitre.
La genèse de Spark
Dans cette section, nous allons tracer le parcours de La courte évolution d'Apache Spark : sa genèse, son inspiration et son adoption par la communauté en tant que moteur de traitement unifié de facto des big data.
Big Data et informatique distribuée chez Google
Quand on pense à l'échelle, on ne peut s'empêcher de penser à la capacité du moteur de recherche de Google à indexer et à rechercher les données du monde entier sur Internet à la vitesse de l'éclair. Le nom Google est synonyme d'échelle. En fait, Google est une faute d'orthographe délibérée du terme mathématique googol: c'est 1 plus 100 zéros !
Ni les systèmes de stockage traditionnels tels que les systèmes de gestion de bases de données relationnelles (SGBDR), ni les méthodes de programmation impératives n'étaient en mesure de gérer l'échelle à laquelle Google souhaitait construire et rechercher les documents indexés de l'internet. La nécessité de trouver de nouvelles approches a conduit à la création de Google File System (GFS),
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access