
187
CHAPTER 04
기술 인터뷰: 모델 학습 및 평가
3
월
1
일
●
맑음 :
1
●
흐림 :
0
3
월
2
일
●
맑음 :
1
●
흐림 :
0
3
월
3
일
●
맑음 :
0
●
흐림 :
1
원-핫 인코딩은 수치 데이터를 머신러닝 알고리즘이 이해하기 쉽기 때문에 자주 사용됩니
다. 일부 알고리즘은 범주형 값을 받아들이지 않지만, 시간이 지나면서 이러한 알고리즘도
개선되어 일부는 범주형 값을 직접 사용할 수 있게 되었습니다. 원-핫 인코딩의 단점 중 하
나는 많은 고유값을 가진 피처의 경우 피처 수가 급격히 증가할 수 있어 계산 비용이 더 높아
질 수 있다는 것입니다.
TIP
도메인 지식이나 비즈니스 로직에 대한 이해가 부족하면 데이터 전처리 과정에서 문제가 발생할 수 있
습니다. 예를 들어, 머신러닝을 개발할 때는 이탈 사용자를 지난
7
일 이내에 제품을 취소한 사용자로 정의하
지만, 실제로 제품이나 비즈니스 로직에서는 지난
60
일 이내에 이탈한 사용자를 이탈 사용자로 간주하는 경
우가 있을 수 있습니다. (만약 어떤 이유로든 비즈니스 로직이 머신러닝에 적합하지 않다면, 적절한 해결책을
찾기 위해 논의할 필요가 있습니다.)
레이블 인코딩
레이블 인코딩
Label
Encoding
은 범주를 숫자로 매핑하지만 동일한 피처로 유지합니다. 예를 들어,
[그림
4
-
2
]와 같이 날씨의 유형을 ...