
295
8
장
차원 축소
불행하게도 마지막 항의
m
2
때문에 이 알고리즘을 대량의 데이터셋에 적용하기는 어렵습니
다.
27
8.6
다른 차원 축소 기법
사이킷런은 다양한 차원 축소 기법을 제공합니다. 다음은 그중에서 가장 널리 사용되는 것들입
니다.
랜덤 투영
random projection
이름이 의미하듯이 랜덤한 선형 투영을 사용해 데이터를 저차원 공간으로 투영합니다. 이상하
게 들릴 수 있지만 윌리엄 존슨
William
B
.
Johnson
과 요람 린덴스트라우스
Joram
Lindenstrauss
가 수학적으
로 증명한 것처럼 이런 랜덤 투영이 실제로 거리를 잘 보존하는 것으로 밝혀졌습니다. 차원 축
소 품질은 샘플 수와 목표 차원수에 따라 다릅니다. 하지만 놀랍게도 초기 차원수에는 의존적
이지 않습니다. 더 자세한 내용은
sklearn
.
random
_
projection
패키지 문서를 참고하세요.
다차원 스케일링
multidimensional scaling
(
MDS
)
샘플 간의 거리를 보존하면서 차원을 축소합니다 (그림
8
-
13
).
Isomap
각 샘플을 가장 가까운 이웃과 연결하는 식으로 그래프를 만듭니다. 그런 다음 샘플 간의
지오
데식 거리
geodesic
distance
28
를 유지하면서 차원을 축소합니다.
t
-
SNE
t-distributed stochastic neighbor embedding ...