
230
데이터 과학을 위한 통계
리프트 곡선은 레코드를
1
로 분류하기 위한 확률 컷오프 값에 따른 결과의 변화를 한눈에 볼
수 있게 해준다. 적합한 컷오프 값을 결정하기 위한 중간 단계로 활용할 수 있다. 예를 들면 국
세청은 세무감사에 사용할 수 있는 일정량의 자원만 보유하고 있기 때문에, 가장 가능성 있는
세무 사기꾼을 잡기 위해 이 자원들을 사용하기 원한다. 자원 제약을 염두에 두고 당국은 감사
를 진행할지 말지 결정하기 위한 기준을 추정하기 위해 리프트 차트를 사용한다.
주요 개념
• 정확도 (예측한 분류 결과가 몇 퍼센트 정확한지 )는 모델을 평가하는 가장 기본적인 단계이다.
• 다른 평가 지표들 (재현율, 특이도, 정밀도 )은 좀 더 세부적인 성능 특성들을 나타낸다 (예를 들면 재현율은
모델이
1
을 얼마나 정확히 분류하는지를 나타낸다 ).
•
AUC
(
ROC
곡선 아래 면적 )는 모델의
1
과
0
을 구분하는 능력을 보여주기 위해 가장 보편적으로 사용되
는 지표이다.
• 이와 비슷하게, 리프트는 모델이
1
을 얼마나 효과적으로 분류해내는지를 측정한다. 가장
1
로 분류될 가능
성이 높은 것부터 매 십분위마다 이를 계산한다.
5.4.7
더 읽을 거리
성능 평가는 일반적으로 특정 모델(예를 들면
K
최근접 이웃 알고리즘 또는 의사 결정 트리 )
의 맥락에서 다루어진다. ...