337
6
장
이상 탐지
데이터에서 특정 값의 예외적인 개수, 합계, 빈도를 확인하려면 값 단위를 조금씩 바꿔가면서
쿼리를 수행하고 데이터를 확인하는 반복적인 과정이 필요합니다. 큰 단위로 시작해 점점 더
세밀한 단위로 좁혔다가, 다시 큰 범위에서 데이터를 확인하면서 특정 범위의 데이터와 전체
범위의 데이터를 비교하고, 다시 특정 범위의 데이터를 세밀하게 살펴보거나 다른 속성으로 데
이터를 살펴봅니다. 데이터 분석에서 이는 매우 흔한 과정이며
SQL
은 이러한 반복 작업을 수
행하기에 매우 적합한 도구입니다. 앞 예제에서 간단히 알아본 바와 같이,
3
장에서 배운 시계
열 분석 기법과
5
장에서 배운 텍스트 분석 기법을 조합해 분석을 수행하면 훨씬 풍부한 인사이
트를 도출할 수 있습니다.
6.4.3
데이터 결측으로 인한 이상값
지금까지 여러 예제를 통해 살펴봤듯이 비정상적으로 높은 이벤트 발생 수는 이상값이 될 수
있습니다. 반대로, 이벤트 발생 기록이 없는 경우도 이상값일 수 있다는 사실을 놓쳐선 안 됩
니다. 수술 중인 환자의 심장이 불규칙하게 뛰거나 멈추면 심박수 모니터링 기계에서 경고음
이 울리는 것과 같습니다. 대부분의 경우 신경 써서 확인하지 않는 한 데이터 결측을 찾아내기
란 쉽지 않습니다. 예를 들어, 고객은 서비스 사용을 중지하겠다고 운영자에게 미리 알려주지
않습니다. 단순히 서비스를 사용하지 않고 아무런 데이터를 남기지 않은 채 조용히 떠나버리면
그만입니다.
데이터 결측을 확인하는 방법으로는
4
장에서 배운 코호트 분석 기법이