Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
170
데이터 과학을 위한 통계
4.4
회귀에서의 요인변수
범주형 변수
라고도 불리는
요인변수
factor
variable
는 개수가 제한된 이산값을 취한다. 예를 들면 대출
목적이라는 변수는 ‘부채 정리’, ‘결혼’, ‘자동차’ 등의 값을 가질 수 있다.
지표변수
indicator
variable
고도 불리는 이진변수(예/아니오 )는 요인변수의 특수한 경우이다. 회귀분석에는 수치 입력이
필요하기 때문에, 모델에 사용할 수 있도록 요인변수를 다시 수치화해야 한다. 이를 위한 가장
일반적인 방법은 변수를 이진
가변수
들의 집합으로 변환하는 것이다.
용어 정리
가변수
dummy
variable
: 회귀나 다른 모델에서 요인 데이터를 사용하기 위해
0
1
의 이진변수로 부호화한
변수
기준 부호화
reference
coding
: 통계학자들이 많이 사용하는 부호화 형태. 여기서 한 요인을 기준으로 하고
다른 요인들이 이 기준에 따라 비교할 수 있도록 한다. (유의어: 처리 부호화
treatment
coding
)
원-핫 인코딩
one
-
hot
encoding
: 머신러닝 분야에서 많이 사용되는 부호화. 모든 요인 수준이 계속 유지된
다. 어떤 머신러닝 알고리즘에서는 유용한 반면, 다중선형회귀에는 적합하지 않다.
편차 부호화
deviation
coding
: 기준 수준과는 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984