Capítulo 6. Deteção de anomalias
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Uma anomalia é algo que é diferente de outros membros do mesmo grupo. Nos dados, uma anomalia é um registo, uma observação ou um valor que difere dos restantes pontos de dados de uma forma que levanta preocupações ou suspeitas. As anomalias têm vários nomes diferentes, incluindo outliers, novidades, ruído, desvios e excepções, para citar alguns. Usarei os termos anomalia e outlier de forma intercambiável ao longo deste capítulo, e poderás ver os outros termos usados em discussões sobre este tópico também. A deteção de anomalias pode ser o objetivo final de uma análise ou uma etapa de um projeto de análise mais amplo.
Normalmente, as anomalias têm uma de duas fontes: eventos reais que são extremos ou invulgares, ou erros introduzidos durante a recolha ou processamento de dados. Embora muitos dos passos utilizados para detetar anomalias sejam os mesmos, independentemente da fonte, a forma como escolhemos lidar com uma determinada anomalia depende da causa principal. Consequentemente, é importante para o processo de análise compreender a causa principal e distinguir entre os dois tipos de causas.
Os eventos reais podem gerar valores anómalos por uma série de razões. Os dados anómalos podem assinalar fraudes, intrusões na rede, defeitos estruturais num produto, lacunas nas políticas ou uma utilização do produto que não foi planeada ...