
253
6
장
로지스틱 회귀와 분류
더 많은 데이터를 수집하거나 다른 모델을 시도하고, 오차 행렬,
ROC
곡선과
AUC
를 사용할
수 있습니다. 이 모든 것이 잘못된 예측을 추적하고 사전에 오류를 포착하는 데 도움이 됩니다.
또 다른 일반적인 기법은 전체 데이터셋의 클래스 비율이 유지되도록 훈련/테스트 데이터셋을
나누는 것입니다. [예제
6
-
19
]처럼 훈련/테스트 분할을 수행할 때 사이킷런에서 이 작업을 수
행할 수 있습니다.
stratify
매개변수에 클래스의 값이 포함된 열을 전달하면 분할마다 각 클
래스의 비율을 동일하게 유지합니다.
예제
6-19
stratify
매개변수를 사용하여 클래스 균형 맞추기
X, Y = ...
X_train, X_test, Y_train, Y_test = \
train_test_split(X, Y, test_size=.33, stratify=Y)
크기가 작은 클래스의 표본을 합성하는
SMOTE
알고리즘도 있습니다. 하지만 가장 이상적인
방법은 희소한 사건을 찾도록 설계된 이상치 탐지 모델을 사용하는 것입니다. 이러한 모델은
이상치를 찾으며, 비지도 알고리즘이기 때문에 분류 작업은 아닙니다. 이러한 모든 기법은 이
책의 범위를 벗어나지만 주어진 문제에 더 나은 해결책을 제공합니다.
6.12
마치며
로지스틱 회귀는 데이터의 확률을