345
9
장
비지도 학습
알고리즘이 가우시안 분포의 파라미터를 (즉 정상치를 둘러싼 타원 도형을) 추정할 때 이상치로 의심되는
샘플을 무시합니다. 이런 기법은 알고리즘이 타원형을 잘 추정하고 이상치를 잘 구분하도록 돕습니다.
•
아이솔레이션 포레스트
특히 고차원 데이터셋에서 이상치 감지를 위한 효율적인 알고리즘입니다. 이 알고리즘은 무작위로 성장한
결정 트리로 구성된 랜덤 포레스트를 만듭니다. 각 노드에서 특성을 랜덤하게 선택한 다음 (최솟값과 최댓
값 사이에서) 랜덤한 임곗값을 골라 데이터셋을 둘로 나눕니다. 이런 식으로 데이터셋은 점차 분리되어 모
든 샘플이 다른 샘플과 격리될 때까지 진행됩니다. 이상치는 일반적으로 다른 샘플과 멀리 떨어져 있으므
로 (모든 결정 트리에 걸쳐) 평균적으로 정상 샘플과 적은 단계에서 격리됩니다.
•
LOF
local
outlier
factor
이 알고리즘도 이상치 탐지에 좋습니다. 주어진 샘플 주위의 밀도와 이웃 주위의 밀도를 비교합니다. 이상
치는 종종
k
개의 최근접 이웃보다 더 격리됩니다.
•
one
-
class
SVM
이 알고리즘은 특이치 탐지에 잘 맞습니다. 커널
SVM
분류기가 두 클래스를 분리하는 방법을 떠올려보세
요. 먼저 모든 샘플을 고차원 공간에 (암묵적으로 ) 매핑한 다음 이 고차원 공간에서 선형
SVM
분류기를
사용해 두 클래스를 분리합니다 (
5
장 참조 ). 여기서는 샘플의 클래스가 하나이기 때문에 대신
one
-
class
SVM
알고리즘이 원본 공간으로부터 고차원 공간에 있는 ...