
310
1
부
머신러닝
미니배치
k
-평균 알고리즘이 일반
k
-평균 알고리즘보다 훨씬 빠르지만 이너셔는 일반적으로
조금 더 나쁩니다. 특히 클러스터의 개수가 증가할 때 그렇습니다. 이를 [그림
9
-
6
]에서 볼 수
있습니다. 왼쪽의 그래프는 여러 가지 클러스터 개수
k
를 사용해 앞선 데이터셋에서 훈련한 미
니배치
k
-평균과 일반
k
-평균 모델의 이너셔를 비교한 것입니다. 두 곡선의 차이는 상당히 일
정하게 유지되지만
k
가 증가함에 따라 이너셔가 점점 줄어들기 때문에 이 차이가 차지하는 비
율은 점점 커집니다. 오른쪽 그래프에서 미니배치
k
-평균이 일반
k
-평균보다 훨씬 빠르고
k
가 증가함에 따라 더 커지는 것을 볼 수 있습니다.
훈련 시간(초)이너셔
k-평균
미니배치 k-평균
그림
9-6
미니배치
k
-평균의 이너셔가
k
-평균보다 높습니다(왼쪽). 하지만 훨씬 빠르고
k
가 증가할수록 더 그렇습니다
(오른쪽).
최적의 클러스터 개수 찾기
지금까지 클러스터 개수
k
를
5
로 지정했습니다. 데이터를 볼 때 이 값이 올바른 클러스터 개수
임이 분명하기 때문입니다. 하지만 일반적으로
k
를 어떻게 설정할지 쉽게 알 수 없습니다. 만
약 올바르게 지정하지 않으면 결과는 매우 나쁠 수 있습니다. [그림
9
-
7
]에서 보듯이
k
를
3
이
나
8
로 지정하면 상당히 나쁜 모델이 만들어집니다.