Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
309
7
비지도 학습
NOTE
_
스케일링은
PCA
에서도 역시 중요하다.
z
점수를 사용하는 것은 주성분을 계산할 때 공분산행렬
대신 상관행렬(
1
.
7
절 참고)을 사용하는 것과 같은 결과를 가져온다.
PCA
를 계산하는 소프트웨어에는 일반적
으로 상관행렬을 사용할 수 있는 옵션이 있다(
R
에서는
princomp
함수에
cor
라는 인수가 있다).
7.5.2
지배 변수
변수들이 서로 동일한 규모로 측정되고 상대적 중요성을 정확하게 반영하는 경우(예를 들어
주가 변동 )조차도 변수의 스케일을 재조정하는 것이 유용할 수 있다.
7
.
1
.
3
절의 분석 예제에 구글 (
GOOGL
)과 아마존(
AMZN
) 주가 정보를 추가한다고 가정하자.
syms <- c('AMZN', 'GOOGL' 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 'XOM',
'SLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COST')
top_sp1 <- sp500_px[row.names(sp500_px)>='2005-01-01', syms]
sp_pca1 <- princomp(top_sp1)
screeplot(sp_pca1)
7
.
1
절에서 설명한 것처럼 스크리그래프는 첫 번째 주성분에 대한 분산을 표시한다. 이 경우,
[그림
7
-
12 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984