이 됩니다. 첫째, 잠재적인 샘플링 편향을 피할 수 있고 둘째, 데이터의 효율성을 향상하는 샘
플링 방법을 적절히 선택할 수 있죠.
샘플링은 크게 비확률 샘플링과 무작위 샘플링이라는 두 부류로 나뉩니다. 이어지는 절에서 각
샘플링 방법을 살펴봅시다.
4.1.1 4.1.1
비확률 샘플링비확률 샘플링
비확률 샘플링은 데이터를 확률이 아닌 기준에 의거해 선택하는 방법입니다. 다음은 비확률 샘
플링에서 사용하는 몇 가지 기준입니다.
편의 샘플링(
Convenience
sampling
)
데이터 샘플을 가용성에 의거해 선택
2
합니다. 사용하기 편해 인기가 많은 방법입니다.
눈덩이 샘플링(
Snowball
sampling
)
기존 샘플을 기반으로 미래의 샘플을 선택합니다. 예를 들어, 트위터 데이터베이스에
접근하지 않고 트위터 계정을 합법적으로 스크랩하려면 사용자 계정 몇 개를 임의로 만
든 다음 해당 계정을 팔로우하는 계정을 모두 스크랩합니다.
판단 샘플링(
Judgement
sampling
)
전문가가 어떤 샘플을 포함할지 결정합니다.
할당 샘플링(
Quota
sampling
)
무작위화
randomization
없이 특정 데이터 그룹별 할당량에 의거해 샘플을 선택합니다. 예
를 들어, 설문 조사를 실시할 때 실제 연령 분포와 상관없이 각 연령 그룹(
30
세 미만,
30 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.