Capítulo 5. Construindo um modelo que funciona com dados do mundo real
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
No Capítulo 4, partilhámos um algoritmo para a monitorização da qualidade dos dados com aprendizagem automática não supervisionada. Uma coisa é ler sobre estes passos e outra é construir um modelo que tenha um bom desempenho na prática em qualquer conjunto de dados arbitrário do mundo real. Se não tiveres estratégias para ter em conta nuances como a sazonalidade, as caraterísticas baseadas no tempo e as correlações entre colunas, o teu modelo irá alertar em excesso ou em falta, muitas vezes de forma dramática.
Para além de conheceres as armadilhas a que deves estar atento, terás de avaliar continuamente o teu modelo em relação aos dados de referência para descobrires onde e como melhorar. Partilharemos métodos para testar modelos de forma eficaz, incluindo ideias sobre o desenvolvimento de uma biblioteca para introduzir o caos em dados perfeitamente bem comportados (deixa uma risada maléfica).
Desafios e atenuações dos dados
Para tornar o teu modelo verdadeiramente valioso em vez de ruidoso, vais precisar de estratégias para ultrapassar os desafios apresentados pelos dados em estado selvagem.
Sazonalidade
Os seres humanos são criaturas muito sazonais. Alteramos os nossos padrões de comportamento consoante a hora do dia e o dia da semana. Pagamos as contas mais ou menos no mesmo dia todos ...