300
1
부
머신러닝
•
군집
clustering
비슷한 샘플을
클러스터
cluster
로 모읍니다. 군집은 데이터 분석, 고객 분류, 추천 시스템, 검색 엔진, 이미지
분할, 준지도 학습, 차원 축소 등에 사용할 수 있는 훌륭한 도구입니다.
•
이상치 탐지
outlier
detection
‘정상’ 데이터가 어떻게 보이는지를 학습합니다. 그다음 비정상 샘플을 감지하는 데 사용합니다. 예를 들면
제조 라인에서 결함 제품을 감지하거나 시계열 데이터에서 새로운 트렌드를 찾습니다.
•
밀도 추정
density
estimation
데이터셋 생성 확률 과정
random
process
의
확률
밀도
함수
probability
density
function
(
PDF
)를 추정합니다. 밀도
추정은 이상치 탐지에 널리 사용됩니다. 밀도가 매우 낮은 영역에 놓인 샘플이 이상치일 가능성이 높습니
다. 또한 데이터 분석과 시각화에도 유용합니다.
케이크의 빵을 즐길 준비가 되었나요? 먼저
k
-평균과
DBSCAN
을 사용해 군집부터 시작해보
죠. 그다음 가우시안 혼합 모델
Gaussian
mixture
model
을 설명하고 어떻게 이를 밀도 추정, 군집, 이상
치 탐지에 사용할 수 있는지 알아봅시다.
9.1
군집
등산을 하며 이전에 본 적 없는 꽃을 발견했다고 해봅시다. 주위를 둘러보니 꽃이 몇 개 더 있
네요. 꽃들이 동일하지는 않지만 충분히 비슷해서 같은 종(또는 적어도 같은 속)에 속한다는
것을 알았습니다. 어떤 종인지 알려면 식물학자에게 물어봐야 하지만 비슷해 보이는 ...