Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
222
데이터 과학을 위한 통계
대부분의 분류 알고리즘에서는 각 데이터에 대해
1
이 될 확률값을 추정하여 할당한다.
5
가장
기본적인 컷오프 기준값은
0
.
5
, 즉
50
%이다. 확률이
0
.
5
보다 크면 분류 결과는
1
, 그렇지 않으
0
이 된다. 또 다른 방법은, 실제 데이터에서
1
이 차지하는 비율을 컷오프로 사용하는 방법
이 있다.
정확도는 아래 수식과 같다.
+
=
∑∑
ᱶ⪶ࠥ
ₙ᧲ᖒ ₙᮭᖒ
⢽ᅙⓍʑ
5.4.1
혼동행렬
혼동행렬
은 분류 결과를 나타내는 가장 대표적인 행렬이다. 혼동행렬은 응답 유형별로 정확한
예측과 잘못된 예측의 수를 한 번에 보여주는 표다.
R
에서는 여러 가지 패키지를 사용하여 혼
동행렬을 구할 수 있다. 물론 이진의 경우에는 간단히 손으로 계산할 수도 있다.
혼동행렬을 설명하기 위해 균형 잡힌 데이터, 즉 동일한 수의 대출 연체/상환 데이터를 이용해
학습한 모델
logistic
_
gam
을 생각해보자(그림
5
-
4
). 일반적인 관례에 따라
Y
=
1
은 관심이
있는 사건(연체)에 해당하고
Y
=
0
은 그 반대인 통상적 사건 (상환)으로 두겠다. 다음은 전체
훈련 데이터 (불균형)에 적용한
logistic
_
gam
모델의 혼동행렬을 계산한다.
pred <- predict(logistic_gam, newdata=train_set)
pred_y <- ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984