68
데이터 과학을 위한 통계
랜덤표본추출이 언제나 쉬운 일은 아니다. 접근 가능한 모집단의 적절한 정의가 매우 중요하
다. 고객의 대표 프로필을 만들 목적으로 파일럿 고객 설문 조사를 준비한다고 하자. 설문 조사
는 대표성을 필요로 하지만 동시에 그만큼 많은 노동력을 필요로 한다.
먼저 고객이 누구인지 정의해야 한다. 구매 금액이
0
보다 큰 모든 고객의 명단을 작성할 수 있
다. 이때 모든 과거 고객을 포함할 것인가? 제품을 환불한 고객도 포함할 것인가? 내부의 테스
트 구매자는? 사업자는? 대금 청구 대행사와 고객을 모두 포함할 것인가?
다음으로 표본추출 절차를 정해야 한다. ‘무작위로
100
명의 고객을 선택’하는 방법이 있겠다.
유동적인 상황에서 표본추출을 해야 할 경우 (예를 들어 실시간 거래 고객이나 웹 방문자), 시
기가 중요할 수 있다 (예를 들어 평일 오전
10
시의 웹 방문자와 주말 오후
10
시의 웹 방문자가
다를 수 있다 ).
층화표본추출
에서는, 모집단을 여러 층으로 나누고 각
층
strata
에서 무작위로 샘플을 추출한다. 정
치 설문 단체에서 백인, 흑인, 라틴계 유권자들의 투표 성향을 조사한다고 하자. 모집단에서 취
한 단순랜덤표본에서는 흑인과 라틴 인구가 지역에 따라 너무 적게 나올 수 있다. 이런 경우 해
당 층에 높은 가중치를 주는 표본추출을 통해, 계층마다 동일한 표본크기를 얻을 수 있다.
2.1.3
크기와 품질: 크기는 언제 중요해질까?
빅데이터 시대라고 해도 의외로 데이터 개수가 적을수록 더 유리한 경우가 있다.