Skip to Content
머신러닝 시스템 설계
book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민
March 2023
Beginner to intermediate
436 pages
9h 20m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 시스템 설계
153
4
훈련 데이터
데이터 수준의 방법: 리샘플링
훈련 데이터의 분포를 수정해 불균형 정도를 줄여서 모델 학습을 더 용이하게 만드는 방법입니
다. 이러한 기법으로는 일반적으로 리샘플링이 있습니다. 리샘플링에는 다수 클래스에서 데이
터 포인트를 제거하는 언더샘플링과 소수 클래스로부터 데이터 포인트를 추가하는 오버샘플링
이 있습니다. 가장 간단한 언더샘플링 방법은 다수 클래스에서 데이터 포인트를 무작위로 제
거하는 것이며, 마찬가지로 가장 간단한 오버샘플링 방법은 원하는 비율이 될 때까지 소수 클
래스 복사본을 무작위로 생성하는 것입니다. [그림
4
-
10
]은 오버샘플링과 언더샘플링의 동작
방식을 시각화한 그림입니다.
언더샘플링 오버샘플링
다수 클래스의
샘플
소수 클래스의
샘플
원래 데이터셋 원래 데이터셋
그림
4-10
언더샘플링과 오버샘플링의 동작 방식(출처: 하파에우 알렝카르의 이미지
47
를 각색함).
저차원 데이터를 언더샘플링하는 방법으로는
1976
년에 개발된 토멕
Tomek
링크
48
가 인기 있습
니다. 서로 반대되는 클래스에서 근접한 샘플 쌍을 찾아 각 쌍에서 다수 클래스의 샘플을 제거
합니다.
이렇게 하면 결정 경계가 더 명확해져 모델이 경계를 학습하는 데는 분명 도움이 되지만 실제
결정 경계의 미묘한 형태를 학습하지 못해 모델의 강건성이 떨어집니다.
저차원 데이터를 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발 7년차, 매니저 1일차

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
러닝 타입스크립트

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850