
200
데이터 과학을 위한 통계
이 장에서는 분류와 확률 추정을 위한 몇 가지 핵심 기술을 다룬다. 분류와 수치 예측 모두에
사용할 수 있는 방법은 다음 장에서 추가적으로 설명한다.
범주 항목이 두 가지 이상이란?
대다수의 문제는 응답이 이진 형태이다. 그러나 일부 분류 문제에서는 세 가지 이상의 결과가 있
을 수 있다. 예를 들면 가입한 지
1
년 되는 고객들을 다음 세 가지로 분류할 수 있다. 계약을 해
지하거나(
Y
=
2
), 월별 계약으로 변경하거나(
Y
=
1
), 새로운 장기 계약 (
Y
=
0
)에 서명하거나.
목표는
j
=
0
,
1
,
2
에 대해
Y
=
j
를 예측하는 것이다. 이 장에서 다루는 대부분의 분류 방법들을
세 가지 이상의 결과가 있는 문제에도 바로 사용하거나 살짝 변경해서 적용할 수 있다. 결과가
세 개 이상인 경우도, 조건부확률을 사용하여 여러 개의 이진 문제로 돌려서 생각해볼 수 있다.
예를 들면 앞의 재계약의 문제의 경우도, 두 가지 이진 예측 문제로 볼 수 있다.
•
Y
=
0
인지 아니면
Y
>
0
인지 예측한다.
•
Y
>
0
이라면,
Y
=
1
인지
Y
=
2
인지를 예측한다.
이 경우 문제를 두 가지 경우, 고객이 계약을 해지하는 경우와 재계약에 동의하는 경우(동의할
경우, 다시 어떤 유형의 재계약을 원하는지 고르면 된다)로 나누는 것이