Capítulo 10. Usando APIs em pipelines de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Na sua forma mais simples, os pipelines podem extrair apenas dados de uma fonte, como uma API REST, e carregar para um destino, como uma tabela SQL num armazém de dados. Na prática, porém, os pipelines geralmente consistem em várias etapas ... antes de entregar os dados ao seu destino final.
James Densmore Referência de bolso sobre pipelines de dados (O'Reilly, 2021)
No Capítulo 9, você usou um Jupyter Notebook para consultar APIs e criar análises de dados. A consulta direta num bloco de notas é útil para a análise exploratória de dados, mas requer que continues a consultar a API repetidamente. Quando as equipas de dados criam produtos analíticos para produção, implementam processos programados para manter uma cópia actualizada dos dados de origem no formato de que necessitam. Esses processos estruturados são chamados de pipelines de dados porque os dados de origem fluem para o pipeline e são preparados e armazenados para criar produtos de dados. Outros termos comuns para estes processos são Extrair, Transformar, Carregar (ETL) ou Extrair, Carregar, Transformar (ELT), dependendo dos pormenores técnicos da forma como são implementados. O engenheiro de dados é a função especializada que se concentra no desenvolvimento e na operação de pipelines de dados, mas em muitas organizações, cientistas de dados, analistas ...