
178
데이터 과학을 위한 통계
리한다. 예를 들면
SqFtTotLiving
을 주택 가격 데이터의 회귀에 두 번 포함하더라도 결과는
기존
house
_
lm
모델의 경우와 동일하다. 하지만 불완전 다중공선성의 경우, 소프트웨어를 통
해 답을 얻을 수는 있지만, 결과가 불안정할 수 있다.
NOTE
_
다중공선성은 트리, 클러스터링, 최근접 이웃 알고리즘 등 회귀 유형이 아닌 방법에서는 그다지 문
제가 되지 않으며, 이들 방법에서는
P
-
1
개 대신에
P
개의 가변수를 유지하는 것이 좋다. 물론 이러한 방법에
서도 예측변수의 비중복성을 유지하는 것이 여전히 미덕이다.
4.5.3
교란변수
변수 상관은 응답변수와 비슷한 예측 관계를 갖는 다른 변수가 포함되는 바람에 비롯된 문제인
반면,
교란변수
는 회귀방정식에 중요한 변수가 포함되지 못해서 생기는 누락의 문제이다. 이 경
우 방정식 계수에 대한 순진한 해석은 잘못된 결론으로 이어질 수 있다.
예를 들면
4
.
2
.
1
절에서 킹 카운티 관련 데이터를 통해 얻은 회귀모형
house
_
lm
을 다시 생각해
보자.
SqFtLot
,
Bathrooms
,
Bedrooms
의 회귀계수는 모두 음수였다. 원래의 회귀모형에는 주
택 가격에 아주 결정적인, 위치를 나타내는 변수가 포함되어 있지 않았다. 위치 정보를 고려하
기위해, 우편번호를 가장 싼 지역