
197
4
장
회귀와 예측
reduced_lm = LinearRegression()
reduced_lm.fit(X, house[outcome])
변수 간 상관관계는 회귀계수를 해석할 때 고려해야 할 여러 문제들 가운데 한 가지일 뿐이다.
모델
house
_
lm
에는 주택의 위치를 고려할 변수가 따로 없는 상태에서, 서로 다른 유형의 지역
들 정보가 섞여 있다. 이 경우, 위치 정보는
교란변수
일 수 있다. 자세한 내용은
4
.
5
.
3
절을 참고
하자.
4.5.2
다중공선성
변수 상관의 극단적인 경우 다중공선성이 나타난다. 이는 예측변수 사이의 중복성을 판단하는
조건이 된다. 완전 다중공선성은 한 예측변수가 다른 변수들의 선형결합으로 표현된다는 것을
의미한다. 다중공선성은 다음 경우 발생한다.
•
오류로 인해 한 변수가 여러 번 포함된 경우
•
요인변수로부터
P
-
1
개가 아닌
P
개의 가변수가 만들어진 경우 (
4
.
4
절 참고)
•
두 변수가 서로 거의 완벽하게 상관성이 있는 경우
회귀분석에서는 다중공선성 문제를 반드시 해결해야 한다. 다중공선성이 사라질 때까지 변수
를 제거해야 한다. 완전 다중공선성이 존재하는 상황에서는 회귀를 통해 제대로 된 답을 얻을
수가 없다.
R
과 파이썬을 포함한 많은 소프트웨어 패키지는 특정 유형의 다중공선성 문제를 자
동으로 처리한다. 예를 들면 ...