Overview
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Aprende a utilizar, implementar e manter o Apache Spark com este guia abrangente, escrito pelos criadores da estrutura de computação em cluster de código aberto. Com ênfase nas melhorias e nas novas funcionalidades do Spark 2.0, os autores Bill Chambers e Matei Zaharia dividem os tópicos do Spark em secções distintas, cada uma com objetivos únicos.
Explorarás as operações básicas e as funções comuns das APIs estruturadas do Spark, bem como o Structured Streaming, uma nova API de alto nível para a criação de aplicações de streaming de ponta a ponta. Os programadores e administradores de sistemas aprenderão os fundamentos da monitorização, afinação e depuração do Spark, e explorarão técnicas e cenários de aprendizagem automática para utilizar a MLlib, a biblioteca de aprendizagem automática escalável do Spark.
- Obtém uma visão geral suave dos grandes dados e do Spark
- Aprende sobre DataFrames, SQL e Datasets - as principais APIs do Spark - através de exemplos práticos
- Mergulha nas APIs de baixo nível do Spark, RDDs e execução de SQL e DataFrames
- Compreende como o Spark é executado num cluster
- Depura, monitoriza e afina clusters e aplicações Spark
- Aprende o poder do Structured Streaming, o mecanismo de processamento de fluxo do Spark
- Aprende como podes aplicar MLlib a uma variedade de problemas, incluindo classificação ou recomendação