
254
데이터 과학을 위한 통계
에 대한 자세한 설명은
5
.
4
.
3
절을 참고하자). 대출 데이터의 예제에서 보았듯, 실제 응답변수
는 행을 따라, 그리고 예측 응답변수는 열을 따라 표시된다 (행과 열의 의미를 바꾸어 사용하
는 경우도 종종 있다). 대각 방향의 칸(왼쪽 상단, 오른쪽 하단 )은 예측변수
이 정확한 값을
예측하는 경우의 수를 의미한다. 여기서 눈에 띄지 않지만 중요한 지표 중 하나는
거짓 양성 비
율
false
positive
ratio
이다. 결과가
1
인 데이터의 수가 희박할 때, 모든 예측 응답변수에 대해 거짓 양
성 값의 비율이 높아져, 예측 결과는
1
이지만 실제로는
0
일 가능성이 높은 상황이 된다. 이 문
제는 광범위하게 적용되는 의료 검진 검사 (예를 들면 유방 조영술)를 어렵게 하는 요인이다.
상대적으로 발생하는 비율이 드물기 때문에, 검사 결과가 양성으로 나왔다고 해서 그것이 바로
유방암을 의미하지는 않는다. 이러한 점들이 대중에 혼동을 가져다줄 수 있다.
그림
5-5
이진 응답변수에 대한 혼동행렬과 그에 관련된 다른 지표들
NOTE
_
여기에서는 행을 따라 실제 응답을 표시하고 열을 따라 예측 응답을 표시하고 있다. 하지만 이것을
반대로 표시하는 경우도 있다. 주목할 만한 예는 유명한
R
패키지
caret
이다.
5.4.2
희귀 클래스 ...