Skip to Content
Referência de bolso de pipelines de dados
book

Referência de bolso de pipelines de dados

by James Densmore
April 2025
Intermediate to advanced
276 pages
5h 26m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Referência de bolso de pipelines de dados

Capítulo 3. Padrões comuns de pipeline de dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Mesmo para engenheiros de dados experientes, a conceção de um novo pipeline de dados é sempre uma nova viagem. Como discutido no Capítulo 2, as diferentes fontes de dados e infra-estruturas apresentam desafios e oportunidades. Além disso, os pipelines são construídos com diferentes objetivos e restrições. Os dados têm de ser processados quase em tempo real? Podem ser actualizados diariamente? Serão modelados para utilização num dashboard ou como entrada para um modelo de aprendizagem automática?

Felizmente, existem alguns padrões comuns em pipelines de dados que provaram ser bem-sucedidos e são extensíveis a muitos casos de uso. Neste capítulo, vou definir esses padrões. Os capítulos seguintes implementam pipelines construídos com base neles.

ETL e ELT

Talvez não exista um padrão mais conhecido do que o ETL e o seu irmão mais moderno, o ELT. Ambos são padrões amplamente utilizados em data warehousing e business intelligence. Nos últimos anos, eles inspiraram padrões de pipeline para modelos de ciência de dados e aprendizado de máquina em execução na produção. São tão conhecidos que muitas pessoas utilizam estes termos como sinónimos de pipelines de dados em vez de padrões que muitos pipelines seguem.

Dadas as suas raízes no armazenamento de dados, é mais fácil descrevê-los nesse contexto, que é o que esta secção ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Engenharia de dados financeiros

Engenharia de dados financeiros

Tamer Khraisha
Bases de dados de grafos, 2ª edição

Bases de dados de grafos, 2ª edição

Ian Robinson, Jim Webber, Emil Eifrem
Processamento de fluxo com o Apache Flink

Processamento de fluxo com o Apache Flink

Fabian Hueske, Vasiliki Kalavri

Publisher Resources

ISBN: 9798341642218