Avant-propos
Lorsque j'ai lancé le projet Apache Spark il y a une dizaine d'années, l'un de mes principaux objectifs était de faciliter la mise en œuvre d'algorithmes parallèles pour un large éventail d'utilisateurs. Les nouveaux algorithmes agissant sur des données à grande échelle ont un impact profond dans tous les domaines de l'informatique, et je voulais aider les développeurs à mettre en œuvre de tels algorithmes et à raisonner sur leurs performances sans avoir à construire un système distribué à partir de zéro.
Je suis donc très enthousiaste à l'idée de découvrir ce nouveau livre du Dr Mahmoud Parsian sur les algorithmes de données avec Spark. Le Dr Parsian possède une vaste expérience de la recherche et de la pratique en matière d'algorithmes parallèles de données à grande échelle, notamment en développant de nouveaux algorithmes pour la bio-informatique en tant que responsable de l'équipe big data d'Illumina. Dans ce livre, il présente Spark à travers son API Python, PySpark, et montre comment mettre en œuvre efficacement un large éventail d'algorithmes utiles en utilisant les primitives de calcul distribué de Spark. Il explique également le fonctionnement du moteur Spark sous-jacent et comment optimiser tes algorithmes grâce à des techniques telles que le contrôle du partitionnement des données. Ce livre sera une excellente ressource à la fois pour les lecteurs qui cherchent à mettre en œuvre des algorithmes existants de manière évolutive et pour ceux qui développent ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access