
350
데이터 과학을 위한 통계
주요 개념
• 모든 레코드를 각각 자체 클러스터로 할당하여 계층적 클러스터링 알고리즘을 시작한다.
• 클러스터들은 모든 레코드가 하나의 클러스터에 속할 때까지 가까운 클러스터와 계속해서 연결된다 (병합
알고리즘 ).
• 병합 과정은 내역이 남고 시각화할 수 있으며, 사용자가 미리 클러스터 수를 지정하지 않더라도 여러 단계
에서 클러스터의 수와 구조를 시각화할 수 있다.
• 클러스터 간 거리는 모든 레코드 간 거리 정보를 사용하여 여러 가지 다른 방식으로 계산할 수 있다.
7.4
모델 기반 클러스터링
계층적 클러스터링과
k
-평균 같은 클러스터링 방법들은 모두 휴리스틱한 방법
heuristic
이라고 할
수 있으며, 직접 관측한 (즉 확률모형에 기반하지 않고) 데이터들이 서로 가깝게 있는 클러스
터를 찾는 데 주로 사용된다. 연구자들은 지난
20
년간
모델 기반 클러스터링
model
-
based
clustering
을
개발하는 데 많은 노력을 기울여왔다. 워싱턴 대학교의 에이드리언 래프터리
Adrian
Raftery
와 동료
들은 이론적인 측면과 소프트웨어적인 측면에서 모델 기반 클러스터링을 개발하는 데 큰 기여
를 했다. 이 기법은 통계 이론에 기초하고 있으며 클러스터의 성질과 수를 결정하는 더 엄격한
방법을 제공한다. 예를 들면 전반적으로는 ...