Skip to Content
머신러닝 시스템 설계
book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민
March 2023
Beginner to intermediate
436 pages
9h 20m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 시스템 설계
125
4
훈련 데이터
다.
6
예를 들어, 모집단의
10
%를 무작위로 선택한다면 해당 모집단의 각 구성 요소가 선택될
확률은 모두
10
%로 동일합니다.
단순 무작위 샘플링은 구현이 쉽다는 장점이 있습니다. 반면에 단점은 드물게 발생하는 범주의
데이터가 포함되지 않을 수 있다는 점입니다. 특정 클래스가 데이터 모집단의
0
.
01
%로 발생한
다고 생각해봅시다. 데이터
1
%를 무작위로 선택하면 이처럼 드물게 발생하는 클래스의 샘플은
포함되지 않겠죠. 이러한 방법으로 데이터를 선택해 훈련한 모델은 해당 클래스가 아예 존재하
지 않는다고 간주하게 됩니다.
4.1.3 4.1.3
계층적 샘플링계층적 샘플링
계층적 샘플링
stratified
sampling
은 모집단을 상이한 성질의 그룹으로 나눈 뒤 각 그룹에 개별적으
로 샘플링을 수행해 단순 무작위 샘플링의 단점을 극복합니다. 예를 들어, 두 클래스
A
B
있는 데이터에서
1
%를 샘플링한다면 클래스
A
에서
1
%, 클래스
B
에서
1
%를 각각 샘플링합니
다. 이렇게 하면 클래스
A
B
가 아무리 드물게 발생하더라도 해당 클래스의 샘플이 포함되죠.
각 그룹을 계층
stratum
이라고 하며 이러한 방법을 계층적 샘플링이라고 부릅니다.
계층적 샘플링은 항상 가능하지는 않다는 단점이 있습니다. 모든 샘플을 원하는 그룹으로 나누
는 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발 7년차, 매니저 1일차

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
러닝 타입스크립트

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850