Capítulo 4. Automatizar a monitorização da qualidade dos dados com a aprendizagem automática
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
A aprendizagem automática é uma abordagem estatística que, em comparação com os testes baseados em regras e a monitorização de métricas, tem muitas vantagens: é escalável, pode detetar alterações desconhecidas e, correndo o risco de antropomorfizar, é inteligente. Pode aprender com entradas anteriores, usar informações contextuais para minimizar falsos positivos e, na verdade, entender cada vez melhor seus dados ao longo do tempo.
Nos capítulos anteriores, explorámos quando e como a automatização com o ML faz sentido para a sua estratégia de monitorização da qualidade dos dados. Agora é altura de explorar o mecanismo principal: como podes treinar, desenvolver e utilizar um modelo para detetar problemasde qualidade dos dados eaté explicar aspectos como a sua gravidade e onde ocorrem nos teus dados.
Neste capítulo, vamos explicar qual a abordagem de aprendizagem automática que funciona melhor para a monitorização da qualidade dos dados e mostrar-te o algoritmo (série de passos) que podes seguir para implementar esta abordagem. Responderemos a perguntas como a quantidade de dados que deves recolher e como tornar os resultados do modelo explicáveis. É importante referir que seguir os passos aqui descritos não resultará num modelo pronto para monitorizar dados do mundo real. ...