Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
231
5
분류
5.5
불균형 데이터 다루기
앞 절에서는 분류 모델을 평가할 때 단순 정확도 외에 사용할 다른 성능 지표들에 대해 알아봤
다. 이들이 데이터가 매우 드문 불균형 데이터(온라인 구매, 보험 청구 사기 등 )에 적합하다는
사실도 알아봤다. 이번 절에서는 불균형 데이터에서 예측 모델링 성능을 향상시킬 몇 가지 방
법에 대해 알아본다.
용어 정리
과소표본
undersample
: 분류 모델에서 개수가 많은 클래스 데이터 중 일부 소수만을 사용하는 것 (유의어:
다운샘플 )
과잉표본
oversample
: 분류 모델에서 희귀 클래스 데이터를 중복해서, 필요하면 부트스트랩 해서 사용하는
(유의어 : 업샘플 )
상향 가중치
up
weight
혹은 하향 가중치
down
weight
: 모델에서 희귀 (혹은 다수 ) 클래스에 높은 (혹은 낮
은) 가중치를 주는 것
데이터 생성
data
generation
: 부트스트랩과 비슷하게 다시 샘플링한 레코드를 빼고 원래 원본과 살짝 다르
게 데이터를 생성하는 것
z
점수
z
-
score
: 표준화 결과
K
: 최근접 이웃 알고리즘에서 이웃들의 개수
5.5.1
과소표본추출
앞서 다룬 대출 데이터와 같이 데이터 개수가 충분하다면, 다수의 데이터에 해당하는 클래스에
과소표본추출
(
다운샘플링
)을 해서 모델링할 때
0
과 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984