
247
5
장
분류
CAUTION
_
요인변수 다루기
로지스틱 회귀에서 요인변수는 선형회귀에서처럼 인코딩하는 과정을 거쳐야 한다.
4
.
4
절을 다시 참고하자.
R
이나 다른 소프트웨어에서, 이 과정을 자동을 처리하고 보통은 기준 인코딩을 사용한다. 이 장에서 다루는 다
른 모든 분류 방법들은 원-핫 인코딩 방법을 사용한다(
6
.
1
.
3
절 참고). 파이썬의 사이킷런에서는 원-핫 인코딩
을 사용하는 것이 정말 쉽다. 결과 더미 변수에서
n
-
1
개만 회귀에 사용하면 된다.
5.3.7
모델 평가하기
다른 분류 방법들과 마찬가지로, 모델이 새로운 데이터를 얼마나 정확하게 분류하는가를 기준
으로 로지스틱 회귀를 평가한다 (
5
.
4
절 참고). 선형회귀와 같이, 표준 통계 도구들을 사용해 모
델을 시험하고 향상시킬 수 있다. 예측된 계수들과 함께,
R
은 계수들의 표준오차 (
SE
),
z
점수,
p
값을 출력한다.
summary(logistic_model)
Call:
glm(formula = outcome ~ payment_inc_ratio + purpose_ + home_ +
emp_len_ + borrower_score, family = “binomial”, data = loan_data)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.51951 -1.06908 ...