필요하기 때문에, 모델에 사용할 수 있도록 요인변수를 다시 수치화해야 한다. 이를 위한 가장
일반적인 방법은 변수를 이진
가변수
들의 집합으로 변환하는 것이다.
용어 정리
•
가변수
dummy
variable
: 회귀나 다른 모델에서 요인 데이터를 사용하기 위해
0
과
1
의 이진변수로 부호화한
변수
•
기준 부호화
reference
coding
: 통계학자들이 많이 사용하는 부호화 형태. 여기서 한 요인을 기준으로 하고
다른 요인들이 이 기준에 따라 비교할 수 있도록 한다. (유의어: 처리 부호화
treatment
coding
)
•
원-핫 인코딩
one
-
hot
encoding
: 머신러닝 분야에서 많이 사용되는 부호화. 모든 요인 수준이 계속 유지된
다. 어떤 머신러닝 알고리즘에서는 유용한 반면, 다중선형회귀에는 적합하지 않다.
•
편차 부호화
deviation
coding
: 기준 수준과는 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.