Capítulo 4. Monitorização e deteção de anomalias para os teus pipelines de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Imagina que acabaste de comprar um carro novo. Com base na verificação de rotina antes da compra, todos os sistemas estão a funcionar de acordo com o manual, os depósitos de óleo e de líquido dos travões estão cheios até à borda e as peças estão como novas - porque, bem, estão.
Depois de receberes as chaves do teu concessionário, fazes-te à estrada. "Não há nada como o cheiro a carro novo!", pensas enquanto entras na autoestrada. Tudo está bem até ouvires um estalido. E o teu carro começa a abanar. E o teu carro começa a abanar. Encosta na berma, liga as luzes de emergência e salta do carro. Depois de uma breve investigação, identificas o alegado culpado do som alto - um pneu furado. Por mais testes ou verificações que o concessionário possa ter feito para validar a saúde do seu carro, não é possível ter em conta incógnitas desconhecidas (ou seja, pregos ou detritos na autoestrada) que possam afetar o seu veículo.
Do mesmo modo, nos dados, todos os testes e verificações da qualidade dos dados não te podem proteger totalmente do tempo de inatividade dos dados, que se pode manifestar em todas as fases do pipeline e surgir por uma variedade de razões que, muitas vezes, não estão relacionadas com os próprios dados.
Quando se trata de compreender quando os dados quebram, ...