Apêndice. Tipos de problemas de qualidade dos dados
Este apêndice apresenta informações adicionais sobre os tipos de problemas de qualidade de dados que são normalmente encontrados em dados do mundo real. Esta lista é útil para considerar ao avaliar a solução de monitorização da qualidade dos dados que está a criar ou a comprar. Em última análise, é necessário ter uma estratégia para identificar e resolver cada um destes tipos de problemas para cada conjunto de dados importante na sua organização.
Para cada um destes problemas de qualidade dos dados, apresentaremos um exemplo, um resumo das causas comuns, uma avaliação da forma como estes problemas afectam normalmente a análise (utilização de dados e seres humanos para informar decisões) e a aprendizagem automática (utilização de dados e algoritmos para automatizar processos), e as nossas recomendações sobre a melhor forma de monitorizar uma fonte de dados para estes problemas.
Figura A-1. Tipos de problemas de qualidade dos dados organizados em quatro categorias (DALL-E 3)
Como mostra a Figura A-1, organizámos as questões neste apêndice em quatro grandes categorias que indicam a que nível as questões afectam os dados.
Questões de mesa
Problemas que afectam a totalidade da tabela e não são específicos de linhas ou valores individuais:
- Chegada tardia
-
Quando os dados chegam tarde e não estão disponíveis para um sistema consumidor ...