Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
68
데이터 과학을 위한 통계
랜덤표본추출이 언제나 쉬운 일은 아니다. 접근 가능한 모집단의 적절한 정의가 매우 중요하
다. 고객의 대표 프로필을 만들 목적으로 파일럿 고객 설문 조사를 준비한다고 하자. 설문 조사
는 대표성을 필요로 하지만 동시에 그만큼 많은 노동력을 필요로 한다.
먼저 고객이 누구인지 정의해야 한다. 구매 금액이
0
보다 큰 모든 고객의 명단을 작성할 수 있
다. 이때 모든 과거 고객을 포함할 것인가? 제품을 환불한 고객도 포함할 것인가? 내부의 테스
트 구매자는? 사업자는? 대금 청구 대행사와 고객을 모두 포함할 것인가?
다음으로 표본추출 절차를 정해야 한다. ‘무작위로
100
명의 고객을 선택’하는 방법이 있겠다.
유동적인 상황에서 표본추출을 해야 할 경우 (예를 들어 실시간 거래 고객이나 웹 방문자), 시
기가 중요할 수 있다 (예를 들어 평일 오전
10
시의 웹 방문자와 주말 오후
10
시의 웹 방문자가
다를 수 있다 ).
층화표본추출
에서는, 모집단을 여러 층으로 나누고 각
strata
에서 무작위로 샘플을 추출한다. 정
치 설문 단체에서 백인, 흑인, 라틴계 유권자들의 투표 성향을 조사한다고 하자. 모집단에서 취
한 단순랜덤표본에서는 흑인과 라틴 인구가 지역에 따라 너무 적게 나올 수 있다. 이런 경우 해
당 층에 높은 가중치를 주는 표본추출을 통해, 계층마다 동일한 표본크기를 얻을 수 있다.
2.1.3
크기와 품질: 크기는 언제 중요해질까?
빅데이터 시대라고 해도 의외로 데이터 개수가 적을수록 더 유리한 경우가 있다.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984