앞 절에서는 분류 모델을 평가할 때 단순 정확도 외에 사용할 다른 성능 지표들에 대해 알아봤
다. 이들이 데이터가 매우 드문 불균형 데이터(온라인 구매, 보험 청구 사기 등)에 적합하다는
사실도 알아봤다. 이번 절에서는 불균형 데이터에서 예측 모델링 성능을 향상시킬 몇 가지 방
법에 대해 알아본다.
용어 정리
•
과소표본
undersample
: 분류 모델에서 개수가 많은 클래스 데이터 중 일부 소수만을 사용하는 것 (유의어:
다운샘플)
•
과잉표본
oversample
: 분류 모델에서 희귀 클래스 데이터를 중복해서, 필요하면 부트스트랩 해서 사용하는
것 (유의어: 업샘플)
•
상향 가중치
up
weight
혹은 하향 가중치
down
weight
: 모델에서 희귀(혹은 다수) 클래스에 높은(혹은 낮
은) 가중치를 주는 것
•
데이터 생성
data
generation
: 부트스트랩과 비슷하게 다시 샘플링한 레코드를 빼고 원래 원본과 살짝 다르
게 데이터를 생성하는 것
•
z
점수
z
-
score
: 표준화 결과
•
K
: 최근접 이웃 알고리즘에서 이웃들의 개수
5.5.1
과소표본추출
앞서 다룬 대출 데이터와 같이 데이터 개수가 충분하다면, 다수의 데이터에 해당하는 클래스에
서
과소표본추출
(
다운샘플링
)을 해서 모델링할 때
0
과 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.