book

Referência de bolso de pipelines de dados

by James Densmore

April 2025

Intermediate to advanced

276 pages

5h 26m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

A quem se destina este livroConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
O que são pipelines de dados?Quem constrói pipelines de dados?Fundamentos de SQL e Data WarehousingPython e/ou JavaComputação distribuídaAdministração básica do sistemaUma mentalidade orientada para objectivosPorquê criar pipelines de dados?Como são construídas as condutas?
Diversidade de fontes de dadosFonte Propriedade do sistemaInterface de ingestão e estrutura de dadosVolume de dadosLimpeza e validade dos dadosLatência e largura de banda do sistema de origemData Warehouses e Data Lakes em CloudFerramentas de ingestão de dadosFerramentas de transformação e modelação de dadosPlataformas de Orquestração de Fluxo de TrabalhoGrafos Acíclicos DirigidosPersonalizar a tua infraestrutura de dados
ETL e ELTO surgimento do ELT em detrimento do ETLSubpadrão EtLTELT para análise de dadosELT para a ciência dos dadosELT para produtos de dados e aprendizagem automáticaEtapas de um pipeline de aprendizagem automáticaIncorpora o feedback no pipelineLeitura adicional sobre ML Pipelines
Configurar o teu ambiente PythonConfigurar o armazenamento de ficheiros na CloudExtrair dados de uma base de dados MySQLExtração de tabelas MySQL completa ou incrementalReplicação de registo binário de dados MySQLExtraindo dados de um banco de dados PostgreSQLExtração de tabelas Postgres completa ou incrementalReplicação de dados usando o log de gravação antecipadaExtrair dados do MongoDBExtrair dados de uma API RESTIngestões de dados em fluxo contínuo com o Kafka e o Debezium
Configurando um Amazon Redshift Warehouse como um destinoCarregando dados em um Redshift WarehouseCargas incrementais versus cargas completasCarregamento de dados extraídos de um log CDCConfigura um Snowflake Warehouse como um destinoCarregamento de dados para um Snowflake Data WarehouseUtilizar o teu armazenamento de ficheiros como um lago de dadosEstruturas de código abertoAlternativas comerciais
Transformações não contextuaisDesduplicação de registros em uma tabelaAnalisar URLsQuando deves transformar? Durante ou após a ingestão?Fundamentos de modelação de dadosTermos chave de modelação de dadosModelação de dados totalmente actualizadosMudança lenta de dimensões para dados totalmente actualizadosModelação de dados ingeridos de forma incrementalModelagem de dados somente de anexoModelação de dados de captura de alterações
Grafos Acíclicos DirigidosConfiguração e visão geral do Apache AirflowInstalar e configurarBase de dados de caudal de arServidor Web e IUProgramadorExecutoresOperadoresConstruir DAGs de fluxo de arUm DAG simplesUm pipeline DAG ELTTarefas adicionais do pipelineAlertas e notificaçõesVerificações de validação de dadosConfigurações avançadas de orquestraçãoTarefas de pipeline acopladas versus tarefas de pipeline desacopladasQuando dividir DAGsCoordenação de múltiplos DAGs com sensoresOpções de fluxo de ar geridoOutras estruturas de orquestração
Valida cedo, valida com frequênciaQualidade dos dados do sistema de origemRiscos de ingestão de dadosPermitir a validação do analista de dadosUma estrutura de validação simplesCódigo da estrutura do validadorEstrutura de um teste de validaçãoExecutar um teste de validaçãoUtilização num DAG de fluxo de arQuando interromper um pipeline, quando avisar e continuarAlargar a estruturaExemplos de testes de validaçãoDuplicação de registos após ingestãoAlteração inesperada na contagem de linhas após a ingestãoFlutuações do valor métricoQuadros de validação de dados comerciais e de fonte aberta
Tratamento de modificações nos sistemas fonteIntroduzir a abstraçãoActualiza os contratos de dadosLimites do esquema em leituraComplexidade de escalaNormalização da ingestão de dadosReutilização da lógica do modelo de dadosGarantir a integridade da dependência

Principais métricas do pipelinePreparar o Data WarehouseUm esquema de infraestrutura de dadosRegisto e ingestão de dados de desempenhoIngestão do histórico de execução do DAG do AirflowAdicionar registo ao validador de dadosTransformar os dados de desempenhoTaxa de sucesso do DAGAlteração do tempo de execução do DAG ao longo do tempoVolume de testes de validação e taxa de sucessoOrquestração de um pipeline de desempenhoO DAG de desempenhoTransparência de desempenho

Content preview from Referência de bolso de pipelines de dados

Capítulo 3. Padrões comuns de pipeline de dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Mesmo para engenheiros de dados experientes, a conceção de um novo pipeline de dados é sempre uma nova viagem. Como discutido no Capítulo 2, as diferentes fontes de dados e infra-estruturas apresentam desafios e oportunidades. Além disso, os pipelines são construídos com diferentes objetivos e restrições. Os dados têm de ser processados quase em tempo real? Podem ser actualizados diariamente? Serão modelados para utilização num dashboard ou como entrada para um modelo de aprendizagem automática?

Felizmente, existem alguns padrões comuns em pipelines de dados que provaram ser bem-sucedidos e são extensíveis a muitos casos de uso. Neste capítulo, vou definir esses padrões. Os capítulos seguintes implementam pipelines construídos com base neles.

ETL e ELT

Talvez não exista um padrão mais conhecido do que o ETL e o seu irmão mais moderno, o ELT. Ambos são padrões amplamente utilizados em data warehousing e business intelligence. Nos últimos anos, eles inspiraram padrões de pipeline para modelos de ciência de dados e aprendizado de máquina em execução na produção. São tão conhecidos que muitas pessoas utilizam estes termos como sinónimos de pipelines de dados em vez de padrões que muitos pipelines seguem.

Dadas as suas raízes no armazenamento de dados, é mais fácil descrevê-los nesse contexto, que é o que esta secção ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341642218

Referência de bolso de pipelines de dados

by James Densmore

Capítulo 3. Padrões comuns de pipeline de dados

ETL e ELT

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Engenharia de dados financeiros

Algoritmos de dados com o Spark

Bases de dados de grafos, 2ª edição

Processamento de fluxo com o Apache Flink

Publisher Resources

Capítulo 3. Padrões comuns de pipeline de dados

ETL e ELT

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Engenharia de dados financeiros

Algoritmos de dados com o Spark

Bases de dados de grafos, 2ª edição

Processamento de fluxo com o Apache Flink

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.