Overview
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Os dados são maiores, chegam mais depressa e apresentam-se numa variedade de formatos... e todos eles têm de ser processados em escala para análise ou aprendizagem automática. Mas como podes processar cargas de trabalho tão variadas de forma eficiente? Entra no Apache Spark.
Atualizada para incluir o Spark 3.0, esta segunda edição mostra aos engenheiros de dados e cientistas de dados por que a estrutura e a unificação no Spark são importantes. Especificamente, este livro explica como realizar análises de dados simples e complexas e empregar algoritmos de aprendizado de máquina. Através de orientações passo-a-passo, trechos de código e notebooks, serás capaz de:
- Aprende APIs estruturadas de alto nível em Python, SQL, Scala ou Java
- Compreende as operações Spark e o SQL Engine
- Inspecciona, afina e depura as operações do Spark com as configurações do Spark e a IU do Spark
- Conecta-te a fontes de dados: JSON, Parquet, CSV, Avro, ORC, Hive, S3 ou Kafka
- Executa análises em dados em lote e de streaming usando o Structured Streaming
- Constrói pipelines de dados fiáveis com Delta Lake e Spark de código aberto
- Desenvolve pipelines de aprendizagem automática com MLlib e produz modelos com MLflow
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access