Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
310
데이터 과학을 위한 통계
이러한 상황에서는 변수를 스케일링 (
7
.
5
.
1
절 참고 )해서 포함하거나, 이러한 지배 변수를 전체
분석에서 제외하고 별도로 처리할 수도 있다. 어떤 방법이 항상 옳다고는 할 수 없으며 응용 분
야에 따라 달라진다.
그림
7-12
GOOGL
AMZN
을 포함한
S
&
P
500
상위 기업들의 주가에 대한
PCA
스크리그래프
7.5.3
범주형 데이터와 고워 거리
범주형 데이터가 있는 경우에는 순서형 (정렬된 요인) 변수 또는 이진형 (더미) 변수를 사용하
여 수치형 데이터로 변환해야 한다. 데이터를 구성하는 변수들에 연속형과 이진형 변수가 섞여
있는 경우에는 비슷한 스케일이 되도록 변수의 크기를 조정해야 한다 (
7
.
5
.
1
절 참고). 이를 위
한 대표적인 방법은
고워 거리
를 사용하는 것이다.
고워 거리의 기본 아이디어는 각 변수의 데이터 유형에 따라 거리 지표를 다르게 적용하는 것
이다.
• 수치형 변수나 순서형 요소에서 두 레코드 간의 거리는 차이의 절댓값 (맨하탄 거리 )으로 계산한다.
• 범주형 변수의 경우 두 레코드 사이의 범주가 서로 다르면 거리가
1
이고 범주가 동일하면 거리는
0
이다.
고워 거리는 다음과 같이 계산한다.
311
7
비지도 학습
1
. 각 레코드의 변수
i
j
의 모든 쌍에 대해 거리
,ij
d
를 계산한다.
2
. 각
,ij
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984