Capítulo 4. Ingestão de dados: Extração de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Conforme discutido no Capítulo 3, o padrão ELT é o design ideal para pipelines de dados criados para análise de dados, ciência de dados e produtos de dados. As duas primeiras etapas do padrão ELT, extrair e carregar, são coletivamente chamadas de ingestão de dados. Este capítulo discute a configuração do ambiente de desenvolvimento e da infraestrutura para ambos, e aborda as especificidades da extração de dados de vários sistemas de origem. O Capítulo 5 discute o carregamento dos conjuntos de dados resultantes em um data warehouse.
Nota
Os exemplos de código de extração e carregamento neste capítulo são totalmente desacoplados um do outro. Coordenar as duas etapas para concluir uma ingestão de dados é um tópico discutido no Capítulo 7.
Conforme discutido no Capítulo 2, existem vários tipos de sistemas de origem para extrair, bem como vários destinos para carregar. Além disso, os dados têm muitas formas, todas elas apresentando diferentes desafios para a sua ingestão.
Este capítulo e o seguinte incluem exemplos de código para exportar e ingerir dados de e para sistemas comuns. O código é altamente simplificado e contém apenas um tratamento mínimo de erros. Cada exemplo pretende ser um ponto de partida fácil de entender para a ingestão de dados, mas é totalmente funcional e extensível a soluções mais escaláveis. ...