book

Referência de bolso de pipelines de dados

by James Densmore

April 2025

Intermediate to advanced

276 pages

5h 26m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

A quem se destina este livroConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
O que são pipelines de dados?Quem constrói pipelines de dados?Fundamentos de SQL e Data WarehousingPython e/ou JavaComputação distribuídaAdministração básica do sistemaUma mentalidade orientada para objectivosPorquê criar pipelines de dados?Como são construídas as condutas?
Diversidade de fontes de dadosFonte Propriedade do sistemaInterface de ingestão e estrutura de dadosVolume de dadosLimpeza e validade dos dadosLatência e largura de banda do sistema de origemData Warehouses e Data Lakes em CloudFerramentas de ingestão de dadosFerramentas de transformação e modelação de dadosPlataformas de Orquestração de Fluxo de TrabalhoGrafos Acíclicos DirigidosPersonalizar a tua infraestrutura de dados
ETL e ELTO surgimento do ELT em detrimento do ETLSubpadrão EtLTELT para análise de dadosELT para a ciência dos dadosELT para produtos de dados e aprendizagem automáticaEtapas de um pipeline de aprendizagem automáticaIncorpora o feedback no pipelineLeitura adicional sobre ML Pipelines
Configurar o teu ambiente PythonConfigurar o armazenamento de ficheiros na CloudExtrair dados de uma base de dados MySQLExtração de tabelas MySQL completa ou incrementalReplicação de registo binário de dados MySQLExtraindo dados de um banco de dados PostgreSQLExtração de tabelas Postgres completa ou incrementalReplicação de dados usando o log de gravação antecipadaExtrair dados do MongoDBExtrair dados de uma API RESTIngestões de dados em fluxo contínuo com o Kafka e o Debezium
Configurando um Amazon Redshift Warehouse como um destinoCarregando dados em um Redshift WarehouseCargas incrementais versus cargas completasCarregamento de dados extraídos de um log CDCConfigura um Snowflake Warehouse como um destinoCarregamento de dados para um Snowflake Data WarehouseUtilizar o teu armazenamento de ficheiros como um lago de dadosEstruturas de código abertoAlternativas comerciais
Transformações não contextuaisDesduplicação de registros em uma tabelaAnalisar URLsQuando deves transformar? Durante ou após a ingestão?Fundamentos de modelação de dadosTermos chave de modelação de dadosModelação de dados totalmente actualizadosMudança lenta de dimensões para dados totalmente actualizadosModelação de dados ingeridos de forma incrementalModelagem de dados somente de anexoModelação de dados de captura de alterações
Grafos Acíclicos DirigidosConfiguração e visão geral do Apache AirflowInstalar e configurarBase de dados de caudal de arServidor Web e IUProgramadorExecutoresOperadoresConstruir DAGs de fluxo de arUm DAG simplesUm pipeline DAG ELTTarefas adicionais do pipelineAlertas e notificaçõesVerificações de validação de dadosConfigurações avançadas de orquestraçãoTarefas de pipeline acopladas versus tarefas de pipeline desacopladasQuando dividir DAGsCoordenação de múltiplos DAGs com sensoresOpções de fluxo de ar geridoOutras estruturas de orquestração
Valida cedo, valida com frequênciaQualidade dos dados do sistema de origemRiscos de ingestão de dadosPermitir a validação do analista de dadosUma estrutura de validação simplesCódigo da estrutura do validadorEstrutura de um teste de validaçãoExecutar um teste de validaçãoUtilização num DAG de fluxo de arQuando interromper um pipeline, quando avisar e continuarAlargar a estruturaExemplos de testes de validaçãoDuplicação de registos após ingestãoAlteração inesperada na contagem de linhas após a ingestãoFlutuações do valor métricoQuadros de validação de dados comerciais e de fonte aberta
Tratamento de modificações nos sistemas fonteIntroduzir a abstraçãoActualiza os contratos de dadosLimites do esquema em leituraComplexidade de escalaNormalização da ingestão de dadosReutilização da lógica do modelo de dadosGarantir a integridade da dependência

Principais métricas do pipelinePreparar o Data WarehouseUm esquema de infraestrutura de dadosRegisto e ingestão de dados de desempenhoIngestão do histórico de execução do DAG do AirflowAdicionar registo ao validador de dadosTransformar os dados de desempenhoTaxa de sucesso do DAGAlteração do tempo de execução do DAG ao longo do tempoVolume de testes de validação e taxa de sucessoOrquestração de um pipeline de desempenhoO DAG de desempenhoTransparência de desempenho

Content preview from Referência de bolso de pipelines de dados

Capítulo 4. Ingestão de dados: Extração de dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Conforme discutido no Capítulo 3, o padrão ELT é o design ideal para pipelines de dados criados para análise de dados, ciência de dados e produtos de dados. As duas primeiras etapas do padrão ELT, extrair e carregar, são coletivamente chamadas de ingestão de dados. Este capítulo discute a configuração do ambiente de desenvolvimento e da infraestrutura para ambos, e aborda as especificidades da extração de dados de vários sistemas de origem. O Capítulo 5 discute o carregamento dos conjuntos de dados resultantes em um data warehouse.

Nota

Os exemplos de código de extração e carregamento neste capítulo são totalmente desacoplados um do outro. Coordenar as duas etapas para concluir uma ingestão de dados é um tópico discutido no Capítulo 7.

Conforme discutido no Capítulo 2, existem vários tipos de sistemas de origem para extrair, bem como vários destinos para carregar. Além disso, os dados têm muitas formas, todas elas apresentando diferentes desafios para a sua ingestão.

Este capítulo e o seguinte incluem exemplos de código para exportar e ingerir dados de e para sistemas comuns. O código é altamente simplificado e contém apenas um tratamento mínimo de erros. Cada exemplo pretende ser um ponto de partida fácil de entender para a ingestão de dados, mas é totalmente funcional e extensível a soluções mais escaláveis. ...