328
1
부
머신러닝
지). 평균-이동은 지역의 최대 밀도를 찾을 때까지 높은 쪽으로 원을 이동시킵니다. 동일한 지
역에 (또는 충분히 가깝게 ) 안착한 원에 있는 모든 샘플은 동일한 클러스터가 됩니다. 평균-
이동은
DBSCAN
과 유사한 특징이 있습니다. 모양이나 개수에 상관없이 클러스터를 찾을 수
있습니다. 하이퍼파라미터도 매우 적습니다 (
밴드위스
bandwidth
라 부르는 원 반경 딱 한 개입니
다). 국부적인 밀집도 추정에 의존합니다. 하지만
DBSCAN
과 달리 평균-이동은 클러스터 내
부 밀집도가 불균형할 때 여러 개로 나누는 경향이 있습니다. 아쉽지만 계산 복잡도는
O
(
m
2
)
입니다. 따라서 대규모 데이터셋에는 적합하지 않습니다.
유사도 전파
이 알고리즘은 투표 방식을 사용합니다. 샘플은 자신을 대표할 수 있는 비슷한 샘플에 투표합
니다. 알고리즘이 수렴하면 각 대표와 투표한 샘플이 클러스터를 형성합니다. 유사도 전파
affinity
propagation
는 크기가 다른 여러 개의 클러스터를 감지할 수 있습니다. 아쉽지만 이 알고리즘의 계
산 복잡도는
O
(
m
2
)입니다. 따라서 대규모 데이터셋에는 적합하지 않습니다.
스펙트럼 군집
이 알고리즘은 샘플 사이의 유사도 행렬을 받아 저차원 임베딩을 만듭니다 (즉 차원을 축소합
니다 ). 그다음 이 저차원 공간에서 또 다른 군집 알고리즘을 사용합니다(사이킷런의 구현은
k
-평균을 사용합니다 ). 스펙트럼 군집
spectral
clustering
은 복잡한 클러스터 구조를 감지하고 그래
프 컷
graph ...