Prefácio
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
O Spark tornou-se o padrão de facto para a análise de dados em grande escala. Tenho usado e ensinado o Spark desde o seu início, há nove anos, e tenho visto enormes melhorias nos processos de Extrair, Transformar, Carregar (ETL), no desenvolvimento de algoritmos distribuídos e na análise de dados em grande escala. Comecei a usar o Spark com Java, mas descobri que, embora o código seja bastante estável, tens de escrever longas linhas de código, que se podem tornar ilegíveis. Para este livro, decidi usar o PySpark (uma API Python para o Spark) porque é mais fácil expressar o poder do Spark em Python: o código é curto, legível e de fácil manutenção. O PySpark é poderoso mas simples de usar, e podes expressar qualquer ETL ou algoritmo distribuído nele com um simples conjunto de transformações e acções.
Porque escrevi este livro
Este é um livro introdutório sobre análise de dados utilizando PySpark. O livro consiste num conjunto de diretrizes e exemplos destinados a ajudar os engenheiros de software e de dados a resolver problemas de dados da forma mais simples possível. Como sabes, há muitas formas de resolver qualquer problema de dados: o PySpark permite-nos escrever código simples para problemas complexos. Este é o lema que tentei expressar neste livro: mantém-no simples e usa parâmetros para que a tua solução possa ser reutilizada por outros programadores. ...