Skip to Content
머신러닝 시스템 설계
book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민
March 2023
Beginner to intermediate
436 pages
9h 20m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 시스템 설계
123
4
훈련 데이터
이 됩니다. 첫째, 잠재적인 샘플링 편향을 피할 수 있고 둘째, 데이터의 효율성을 향상하는 샘
플링 방법을 적절히 선택할 수 있죠.
샘플링은 크게 비확률 샘플링과 무작위 샘플링이라는 두 부류로 나뉩니다. 이어지는 절에서 각
샘플링 방법을 살펴봅시다.
4.1.1 4.1.1
비확률 샘플링비확률 샘플링
비확률 샘플링은 데이터를 확률이 아닌 기준에 의거해 선택하는 방법입니다. 다음은 비확률 샘
플링에서 사용하는 몇 가지 기준입니다.
편의 샘플링(
Convenience
sampling
)
데이터 샘플을 가용성에 의거해 선택
2
합니다. 사용하기 편해 인기가 많은 방법입니다.
눈덩이 샘플링(
Snowball
sampling
)
기존 샘플을 기반으로 미래의 샘플을 선택합니다. 예를 들어, 트위터 데이터베이스에
접근하지 않고 트위터 계정을 합법적으로 스크랩하려면 사용자 계정 몇 개를 임의로 만
든 다음 해당 계정을 팔로우하는 계정을 모두 스크랩합니다.
판단 샘플링(
Judgement
sampling
)
전문가가 어떤 샘플을 포함할지 결정합니다.
할당 샘플링(
Quota
sampling
)
무작위화
randomization
없이 특정 데이터 그룹별 할당량에 의거해 샘플을 선택합니다. 예
를 들어, 설문 조사를 실시할 때 실제 연령 분포와 상관없이 각 연령 그룹 (
30
세 미만,
30 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발 7년차, 매니저 1일차

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
러닝 타입스크립트

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850