Capítulo 3. Padrões comuns de pipeline de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Mesmo para engenheiros de dados experientes, a conceção de um novo pipeline de dados é sempre uma nova viagem. Como discutido no Capítulo 2, as diferentes fontes de dados e infra-estruturas apresentam desafios e oportunidades. Além disso, os pipelines são construídos com diferentes objetivos e restrições. Os dados têm de ser processados quase em tempo real? Podem ser actualizados diariamente? Serão modelados para utilização num dashboard ou como entrada para um modelo de aprendizagem automática?
Felizmente, existem alguns padrões comuns em pipelines de dados que provaram ser bem-sucedidos e são extensíveis a muitos casos de uso. Neste capítulo, vou definir esses padrões. Os capítulos seguintes implementam pipelines construídos com base neles.
ETL e ELT
Talvez não exista um padrão mais conhecido do que o ETL e o seu irmão mais moderno, o ELT. Ambos são padrões amplamente utilizados em data warehousing e business intelligence. Nos últimos anos, eles inspiraram padrões de pipeline para modelos de ciência de dados e aprendizado de máquina em execução na produção. São tão conhecidos que muitas pessoas utilizam estes termos como sinónimos de pipelines de dados em vez de padrões que muitos pipelines seguem.
Dadas as suas raízes no armazenamento de dados, é mais fácil descrevê-los nesse contexto, que é o que esta secção ...