
309
7
장
비지도 학습
NOTE
_
스케일링은
PCA
에서도 역시 중요하다.
z
점수를 사용하는 것은 주성분을 계산할 때 공분산행렬
대신 상관행렬(
1
.
7
절 참고)을 사용하는 것과 같은 결과를 가져온다.
PCA
를 계산하는 소프트웨어에는 일반적
으로 상관행렬을 사용할 수 있는 옵션이 있다(
R
에서는
princomp
함수에
cor
라는 인수가 있다).
7.5.2
지배 변수
변수들이 서로 동일한 규모로 측정되고 상대적 중요성을 정확하게 반영하는 경우(예를 들어
주가 변동 )조차도 변수의 스케일을 재조정하는 것이 유용할 수 있다.
7
.
1
.
3
절의 분석 예제에 구글 (
GOOGL
)과 아마존(
AMZN
) 주가 정보를 추가한다고 가정하자.
syms <- c('AMZN', 'GOOGL' 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 'XOM',
'SLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COST')
top_sp1 <- sp500_px[row.names(sp500_px)>='2005-01-01', syms]
sp_pca1 <- princomp(top_sp1)
screeplot(sp_pca1)
7
.
1
절에서 설명한 것처럼 스크리그래프는 첫 번째 주성분에 대한 분산을 표시한다. 이 경우,
[그림
7
-
12 ...