단순 무작위 샘플링은 구현이 쉽다는 장점이 있습니다. 반면에 단점은 드물게 발생하는 범주의
데이터가 포함되지 않을 수 있다는 점입니다. 특정 클래스가 데이터 모집단의
0
.
01
%로 발생한
다고 생각해봅시다. 데이터
1
%를 무작위로 선택하면 이처럼 드물게 발생하는 클래스의 샘플은
포함되지 않겠죠. 이러한 방법으로 데이터를 선택해 훈련한 모델은 해당 클래스가 아예 존재하
지 않는다고 간주하게 됩니다.
4.1.3 4.1.3
계층적 샘플링계층적 샘플링
계층적 샘플링
stratified
sampling
은 모집단을 상이한 성질의 그룹으로 나눈 뒤 각 그룹에 개별적으
로 샘플링을 수행해 단순 무작위 샘플링의 단점을 극복합니다. 예를 들어, 두 클래스
A
와
B
가
있는 데이터에서
1
%를 샘플링한다면 클래스
A
에서
1
%, 클래스
B
에서
1
%를 각각 샘플링합니
다. 이렇게 하면 클래스
A
나
B
가 아무리 드물게 발생하더라도 해당 클래스의 샘플이 포함되죠.
각 그룹을 계층
stratum
이라고 하며 이러한 방법을 계층적 샘플링이라고 부릅니다.
계층적 샘플링은 항상 가능하지는 않다는 단점이 있습니다. 모든 샘플을 원하는 그룹으로 나누
는 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.