Chapitre 1. Introduction à Spark haute performance
Ce chapitre donne un aperçu de ce que nous espérons que tu pourras apprendre dans ce livre et fait de son mieux pour te convaincre d'apprendre Scala. N'hésite pas à passer directement au chapitre 2 si tu sais déjà ce que tu cherches et si tu utilises Scala (ou si tu as jeté ton dévolu sur un autre langage).
Qu'est-ce que Spark et pourquoi la performance est-elle importante ?
Apache Spark est un système de calcul distribué généraliste à hautes performances qui est devenu le projet open source Apache le plus actif, avec plus de 1 000 contributeurs actifs.1 Spark nous permet de traiter de grandes quantités de données, au-delà de ce qui peut tenir sur une seule machine, avec une API de haut niveau et relativement facile à utiliser. La conception et l'interface de Spark sont uniques, et c'est l'un des systèmes les plus rapides de son genre. De façon unique, Spark nous permet d'écrire la logique des transformations de données et des algorithmes d'apprentissage automatique d'une manière qui est parallélisable, mais relativement agnostique au niveau du système. Il est donc souvent possible d'écrire des calculs qui sont rapides pour des systèmes de stockage distribués de nature et de taille variables.
Cependant, malgré ses nombreux avantages et l'engouement autour de Spark, l'implémentation la plus simple ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access