
225
5
장
분류
+
=
ₙ᧲ᖒ ÑḴᮭᖒ
마지막 하나는
특이도
로서, 이는 음성 결과를 정확히 예측하는 능력을 측정한다.
+
=
ₙᮭᖒ ÑḴ᧲ᖒ
이들을 코드로 표현하면 다음과 같다.
# 정밀도(precision)
conf_mat[1,1]/sum(conf_mat[,1])
# 재현율(recall)
conf_mat[1,1]/sum(conf_mat[1,])
# 특이도(specificity)
conf_mat[2,2]/sum(conf_mat[2,])
5.4.4
ROC
곡선
앞에서 다룬 내용에서 눈치챘겠지만 재현율과 특이도 사이에는 트레이드오프 관계 (시소 관계 )
가 있다.
1
을 잘 잡아낸다는 것은 그만큼
0
을
1
로 잘못 예측할 가능성도 높아지는 것을 의미한
다. 이상적인 분류기란,
0
을
1
이라고 잘못 분류하지 않으면서 동시에
1
을 정말 잘 분류하는 분
류기를 의미할 것이다.
이러한 트레이드오프 관계를 표현하기 위한 지표가 바로 ‘수신자 조작 특성
receiver
operating
characteristic
’ 곡선, 보통은 줄여서
ROC
곡선
이다.
ROC
곡선은
x
축의 특이도에 대한
y
축의 재현
율(민감도)을 표시한다.
6
ROC
곡선은 레코드를 분류할 때 사용하는 컷오프 값을 바꿀 때 재
현율과 특이도 사이의 트레이드오프 관계를 잘 보여준다. ...