
358
데이터 과학을 위한 통계
NOTE
_
모델 기반 클러스터링은 실제로 매우 활발하고 빠르게 발전하는 연구 분야이다. 본문에서 다루는
적용 범위는 아주 일부에 지나지 않는다. 실제로
mclust
도움말 파일만 해도
154
쪽 분량이다. 모델 기반 클
러스터링의 미묘한 내용까지 다루는 것은 데이터 과학자들이 그간 접한 대부분의 문제보다 더 많은 노력이
필요할 수 있다.
모델 기반 클러스터링 기술에는 몇 가지 한계가 있다. 이 방법은 기본적으로 데이터들이 모델
을 따른다는 가정이 필요하며, 클러스터링 결과는 이 가정에 따라 매우 다르다. 필요한 계산량
역시 계층적 클러스터링보다 높으므로 대용량 데이터로 확장하기가 어렵다. 마지막으로 알고
리즘이 다른 방법들보다 더 복잡하고 이용하기가 어렵다.
주요 개념
• 클러스터들이 각자 서로 다른 확률분포로부터 발생한 것으로 가정한다.
• 분포 (일반적으로 정규분포 ) 개수에 대한 가정에 따라 서로 다른 적합한 모델이 있다.
• 이 방법은 너무 많은 파라미터 (오버피팅의 원인이 될 수 있다 )를 사용하지 않으면서도 데이터에 적합한 모
델(그리고 연관된 클러스터 개수 )을 선택한다.
7.4.4
더 읽을 거리
•모델 기반 클러스터링에 대한 내용은
mclust
와
GaussianMixture
의 문서를 참고하자.
-
http
://
www