Prefácio
Quando iniciei o projeto Apache Spark há uma década, um dos meus principais objectivos era facilitar a implementação de algoritmos paralelos a um vasto leque de utilizadores. Os novos algoritmos que actuam em dados de grande escala estão a ter um impacto profundo em todas as áreas da computação, e eu queria ajudar os programadores a implementar esses algoritmos e a analisar o seu desempenho sem terem de construir um sistema distribuído de raiz.
Por isso, estou muito entusiasmado com este novo livro do Dr. Mahmoud Parsian sobre algoritmos de dados com Spark. O Dr. Parsian tem uma vasta pesquisa e experiência prática com algoritmos paralelos de dados em grande escala, incluindo o desenvolvimento de novos algoritmos para bioinformática como líder da equipa de grandes dados da Illumina. Neste livro, apresenta o Spark através de sua API Python, PySpark, e mostra como implementar uma ampla gama de algoritmos úteis de forma eficiente usando as primitivas de computação distribuída do Spark. Explica também o funcionamento do motor Spark subjacente e como otimizar os seus algoritmos através de técnicas como o controlo do particionamento de dados. Este livro será um excelente recurso tanto para os leitores que procuram implementar algoritmos existentes de forma escalável como para os leitores que estão a desenvolver novos algoritmos personalizados utilizando o Spark.
Também estou entusiasmado com o facto de o Dr. Parsian ter incluído exemplos de código de trabalho para todos os ...