Capítulo 3. Recolha, limpeza, transformação e teste de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Agora que temos uma melhor compreensão das várias ferramentas necessárias para dar prioridade à fiabilidade dos dados, vamos discutir como preparar os teus dados para casos de utilização de produção tendo em mente a qualidade dos dados.
No Capítulo 2, discutimos alguma da terminologia do domínio e percorremos uma taxonomia de onde se encontram as pepitas de qualidade de dados (principalmente metadados). Ainda assim, para ter uma noção completa da qualidade dos dados no seu pipeline de dados, é necessário olhar de ponta a ponta, para todo o ciclo de vida dos dados à medida que persistem na sua organização.
Neste capítulo, explicaremos como gerir os dados antes e durante a sua utilização no pipeline através de quatro passos fundamentais que afectam a qualidade geral dos dados: recolha, limpeza, transformação e teste de dados. Enquanto a recolha e a limpeza de dados dizem respeito ao primeiro passo do pipeline de produção, a transformação e os testes abordam a qualidade dos dados enquanto estes se encontram a meio do seu percurso para se tornarem análises acionáveis.
Recolha de dados
Quando se trata de recolher dados, talvez nenhum aspeto do pipeline seja tão importante como o ponto de entrada, a localização mais a montante em qualquer pipeline de dados. Definimos um ponto de entrada como ...