book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민

March 2023

Beginner to intermediate

436 pages

9h 20m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

Content preview from 머신러닝 시스템 설계

153

장

훈련 데이터

데이터 수준의 방법: 리샘플링

훈련 데이터의 분포를 수정해 불균형 정도를 줄여서 모델 학습을 더 용이하게 만드는 방법입니

다. 이러한 기법으로는 일반적으로 리샘플링이 있습니다. 리샘플링에는 다수 클래스에서 데이

터 포인트를 제거하는 언더샘플링과 소수 클래스로부터 데이터 포인트를 추가하는 오버샘플링

이 있습니다. 가장 간단한 언더샘플링 방법은 다수 클래스에서 데이터 포인트를 무작위로 제

거하는 것이며, 마찬가지로 가장 간단한 오버샘플링 방법은 원하는 비율이 될 때까지 소수 클

래스 복사본을 무작위로 생성하는 것입니다. [그림

]은 오버샘플링과 언더샘플링의 동작

방식을 시각화한 그림입니다.

언더샘플링 오버샘플링

다수 클래스의

샘플

소수 클래스의

샘플

원래 데이터셋 원래 데이터셋

그림

4-10

언더샘플링과 오버샘플링의 동작 방식(출처: 하파에우 알렝카르의 이미지

를 각색함).

저차원 데이터를 언더샘플링하는 방법으로는

1976

년에 개발된 토멕

Tomek

링크

가 인기 있습

니다. 서로 반대되는 클래스에서 근접한 샘플 쌍을 찾아 각 쌍에서 다수 클래스의 샘플을 제거

합니다.

이렇게 하면 결정 경계가 더 명확해져 모델이 경계를 학습하는 데는 분명 도움이 되지만 실제

결정 경계의 미묘한 형태를 학습하지 못해 모델의 강건성이 떨어집니다.

저차원 데이터를 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리

개발자를 위한 머신러닝&딥러닝

로런스 모로니

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850