
123
4
장
초기 데이터셋 준비하기
NOTE
_
옮긴이의 노트
KMeans
알고리즘을 사용할 때 각 샘플을 클러스터 중심까지의 거리로 표현할 수 있습니다.
KMeans
클래스
의
trasnform
()
메서드에서 이를 수행합니다. 여기에서 클러스터 개수는
3
개이므로 반환된 데이터의 특성
개수도
3
개가 됩니다. 클러스터 중심까지의 거리를 사용해 시각화하면 종종 더 나은 결과를 보여줍니다.
아래 코드는
KMeans
클래스의
transform
()
메서드로
vectorized
_
features
를
transformed
_
features
로 변환한 후
UMAP
으로 시각화하는 예입니다.
transformed_features = clus.transform(vectorized_features)
umap_features = umap_embedder.fit_transform(transformed_features)
# 차원 축소된 특성을 2D 평면에 그립니다.
fig = plt.figure(figsize=(16, 10))
plt.scatter(umap_features[:, 0], umap_features[:, 1],
c=[cmap(x/n_clusters) for x in clusters], s=40, alpha=.4)
plt.title('UMAP projection of questions, ...