
189
CHAPTER 04
기술 인터뷰: 모델 학습 및 평가
도 불구하고 말이죠.
피처 선택
데이터 세트에는 서로 높은 상관관계를 가진 피처가 포함될 수 있습니다. 즉, 피처 간에 공선
성
collinearity
이 존재하는 경우가 있습니다. 예를 들면 센티미터 단위로 측정된 키와 미터 단위로
측정된 키는 본질적으로 동일한 정보를 포착합니다. 다른 피처들도 상당한 비율로 같은 정보
를 포착할 수 있으며, 이들을 제거하여 모델이 처리해야 할 피처 수를 줄임으로써, 발생하기
쉬운 오버피팅을 줄이거나 모델의 처리 속도를 향상시킬 수 있습니다. 차원 축소는 피처 선
택을 위한 일반적인 방법이며, 가장 중요한 정보를 유지하면서도 데이터의 차원을 줄이는 작
업입니다.
또 다른 방법은 피처 중요도 테이블
Feature
Importance
Table
을 활용하는 것입니다. 예를 들어,
XGBoost
나
CatBoost
에서 제공하는 피처 중요도 테이블을 이용하여 모델에 가장 낮은 기
여를 하는 피처를 제거할 수 있습니다.
데이터 전처리와 피처 엔지니어링에 관한 인터뷰 문제 예제
데이터 전처리 및 피처 엔지니어링의 기초에 대해 알아보았으니, 이제 몇 가지 인터뷰 문제
예제를 살펴보겠습니다.
인터뷰 문제
4
-
1
: 피처 엔지니어링과 피처 선택의 차이점은 무엇인가요?
답변 예시
피처 엔지니어링은 ...