Skip to Content
데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
book

데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념

by 이준용, 피터 브루스, 앤드루 브루스
October 2018
Beginner to intermediate
328 pages
7h 58m
Korean
Hanbit Media, Inc.
Content preview from 데이터 과학을 위한 통계: 데이터 분석에서 머신러닝까지 50가지 핵심 개념
178
데이터 과학을 위한 통계
리한다. 예를 들면
SqFtTotLiving
을 주택 가격 데이터의 회귀에 두 번 포함하더라도 결과는
기존
house
_
lm
모델의 경우와 동일하다. 하지만 불완전 다중공선성의 경우, 소프트웨어를 통
해 답을 얻을 수는 있지만, 결과가 불안정할 수 있다.
NOTE
_
다중공선성은 트리, 클러스터링, 최근접 이웃 알고리즘 등 회귀 유형이 아닌 방법에서는 그다지 문
제가 되지 않으며, 이들 방법에서는
P
-
1
개 대신에
P
개의 가변수를 유지하는 것이 좋다. 물론 이러한 방법에
서도 예측변수의 비중복성을 유지하는 것이 여전히 미덕이다.
4.5.3
교란변수
변수 상관은 응답변수와 비슷한 예측 관계를 갖는 다른 변수가 포함되는 바람에 비롯된 문제인
반면,
교란변수
는 회귀방정식에 중요한 변수가 포함되지 못해서 생기는 누락의 문제이다. 이 경
우 방정식 계수에 대한 순진한 해석은 잘못된 결론으로 이어질 수 있다.
예를 들면
4
.
2
.
1
절에서 킹 카운티 관련 데이터를 통해 얻은 회귀모형
house
_
lm
을 다시 생각해
보자.
SqFtLot
,
Bathrooms
,
Bedrooms
의 회귀계수는 모두 음수였다. 원래의 회귀모형에는 주
택 가격에 아주 결정적인, 위치를 나타내는 변수가 포함되어 있지 않았다. 위치 정보를 고려하
기위해, 우편번호를 가장 싼 지역
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

파이썬 라이브러리를 활용한 머신러닝(번역개정판): 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

박해선, 안드레아스 뮐러, 세라 가이도

Publisher Resources

ISBN: 9791162240984