Overview
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Com o aumento do big data e da IA, as organizações podem criar rapidamente produtos de dados. No entanto, a eficácia dos seus modelos de análise e aprendizagem automática depende da qualidade dos dados. O formato de código aberto do Delta Lake oferece uma estrutura robusta de lakehouse em plataformas como Amazon S3, ADLS e GCS.
Este livro prático mostra aos engenheiros de dados, cientistas de dados e analistas de dados como colocar o Delta Lake e seus recursos em funcionamento. O objetivo final da criação de pipelines de dados e aplicativos é obter insights dos dados. Compreenderás como a escolha da solução de armazenamento determina a robustez e o desempenho do pipeline de dados, desde os dados brutos até às informações.
Aprenderás a:
- Utilizar técnicas modernas de gestão de dados e engenharia de dados
- Compreende como as transacções ACID trazem fiabilidade aos lagos de dados em escala
- Executar simultaneamente trabalhos de streaming e em lote no teu lago de dados
- Executar comandos de atualização, exclusão e mesclagem em seu lago de dados
- Usa a viagem no tempo para reverter e examinar versões de dados anteriores
- Constrói um pipeline de qualidade de dados de streaming seguindo a arquitetura medalhão