Overview
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
A velocidade, a facilidade de utilização, a análise sofisticada e o suporte multilingue do Apache Spark tornam o conhecimento prático desta estrutura de computação em cluster uma competência necessária para engenheiros de dados e cientistas de dados. Com este guia prático, qualquer pessoa que procure uma introdução ao Spark aprenderá algoritmos práticos e exemplos usando PySpark.
Em cada capítulo, o autor Mahmoud Parsian mostra-te como resolver um problema de dados com um conjunto de transformações e algoritmos Spark. Aprenderás a lidar com problemas que envolvem ETL, padrões de design, algoritmos de aprendizagem automática, particionamento de dados e análise genómica. Cada receita detalhada inclui algoritmos PySpark usando o driver PySpark e o shell script.
Com este livro, tu irás:
- Aprende a selecionar transformações Spark para soluções optimizadas
- Explora transformações e reduções poderosas, incluindo reduceByKey(), combineByKey() e mapPartitions()
- Entende o particionamento de dados para consultas otimizadas
- Constrói e aplica um modelo usando padrões de design PySpark
- Aplica algoritmos de procura de motivos a dados de grafos
- Analisa dados de grafos usando a API GraphFrames
- Aplica algoritmos PySpark a dados clínicos e genómicos
- Aprende a utilizar e a aplicar a engenharia de caraterísticas em algoritmos de ML
- Compreende e utiliza padrões de conceção de dados práticos e pragmáticos