
299
6
장
이상 탐지
이상
anomaly
이란 동일 그룹 내 다른 멤버와 다른 특징을 말합니다. 데이터 관점에서는 다른 데
이터들과 달라서 불신 및 의심을 품게 하는 레코드, 값 등을 의미하며, 유사한 말로
아웃라이어
outlier
,
노벨티
novelty
,
노이즈
noise
,
편차
deviation
,
예외
exception
등으로 부르기도 합니다. 이 장에서는
주로 ‘이상값’ 또는 ‘아웃라이어’라는 용어를 사용합니다.
1
이상 탐지는 말 그대로 이상값을 탐
지하기 위한 목적으로도 수행되고, 대규모 분석 프로젝트의 중간 단계로도 수행됩니다.
이상값이 발생하는 원인은 주로 두 가지입니다. 첫 번째는 실제로 극단적이고 일반적이지 않은
이벤트가 발생한 경우이고, 두 번째는 데이터 수집 및 처리 과정에서 오류가 발생한 경우입니
다. 이상값을 찾아내는 과정은 발생 원인과 상관없이 동일하지만 처리를 위해서는 발생 원인을
정확히 이해해야 합니다. 이상값이 발생한 근본 원인이 무엇인지 이해해야 적절한 처리가 가능
합니다.
먼저, 실제 이벤트를 수집한 데이터에 아웃라이어가 존재하는 경우를 봅시다. 이상 데이터는
이상 거래, 네트워크 침입, 제품의 구조적 결함, 정책의 허술함, 개발자가 의도치 않은 방식으
로의 시스템 사용 등에 대한 신호일 수 있습니다. 이상 탐지는 사이버 보안이나 금융 ...