훈련 데이터의 분포를 수정해 불균형 정도를 줄여서 모델 학습을 더 용이하게 만드는 방법입니
다. 이러한 기법으로는 일반적으로 리샘플링이 있습니다. 리샘플링에는 다수 클래스에서 데이
터 포인트를 제거하는 언더샘플링과 소수 클래스로부터 데이터 포인트를 추가하는 오버샘플링
이 있습니다. 가장 간단한 언더샘플링 방법은 다수 클래스에서 데이터 포인트를 무작위로 제
거하는 것이며, 마찬가지로 가장 간단한 오버샘플링 방법은 원하는 비율이 될 때까지 소수 클
래스 복사본을 무작위로 생성하는 것입니다. [그림
4
-
10
]은 오버샘플링과 언더샘플링의 동작
방식을 시각화한 그림입니다.
언더샘플링오버샘플링
다수 클래스의
샘플
소수 클래스의
샘플
원래 데이터셋원래 데이터셋
그림
4-10
언더샘플링과 오버샘플링의 동작 방식(출처: 하파에우 알렝카르의 이미지
47
를 각색함).
저차원 데이터를 언더샘플링하는 방법으로는
1976
년에 개발된 토멕
Tomek
링크
48
가 인기 있습
니다. 서로 반대되는 클래스에서 근접한 샘플 쌍을 찾아 각 쌍에서 다수 클래스의 샘플을 제거
합니다.
이렇게 하면 결정 경계가 더 명확해져 모델이 경계를 학습하는 데는 분명 도움이 되지만 실제
결정 경계의 미묘한 형태를 학습하지 못해 모델의 강건성이 떨어집니다.
저차원 데이터를 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.