226
로우코드 AI
7.3.3
판다스와 사이킷런으로 특징 변환하기
지금까지 데이터셋의 다양한 열과 열이 상호작용하는 방식, 특히 열과 레이블이 상호작용하는
방식을 살펴봤습니다. 이제 해당 데이터를 사용자 정의형 모델에서 사용할 수 있도록 준비할
차례입니다. 먼저
ML
모델 학습에 사용할 열을 선택합니다. 그리고 선택한 특징을
ML
모델을
학습시키는 데 더 적합한 형태로 변환합니다. 특징은 의미 있는 크기의 숫자여야만 한다는 점
을 기억하세요. 특히 이 프로젝트에서는 특징을 선택할 때 다음과 같은 사항을 고려해야 합니
다.
특징 선택
앞 절에서는 고객 이탈 데이터셋의 여러 특징과 고객 이탈 열(
Churn
) 사이의 상호작용을 살펴
봤습니다. 예측력이 없는 몇 가지 특징(즉, 이탈률에 영향을 미치지 않는 특징)과 중복된 특징
을 확인했습니다. 이로부터 알게 된 사실에 근거하여 데이터프레임(
df
_
2
)의 복사본을 만든 다
음, 모델 학습에 사용하지 않을 열을 제거해야 합니다. 왜 복사본을 만들어야 할까요? 원본의
열을 제거하면 제거된 데이터에 다시 접근하고 싶을 때마다 원본 데이터프레임을 구축하는 코
드를 다시 살펴봐야 할 것입니다. 명시적으로 언급하지는 않았지만, 이것이 원본 데이터프레임
인
df
_
raw
를 직접 변경하지 않고
df
_
2
를 생성한 이유입니다. 복사된 데이터프레임에서 열을
제거하더라도 원본은 그대로 있으므로 필요시 원본 내용에 다시 접근할 수 있습니다.
앞 절에서는
gender
,
StreamingTV
,
StreamingMovies