
Data Science
214
가하면 사용자가 하루 평균 사이트에서 보내는 시간은 대략
2
분 감소한다. 다른
모든 것이 동일할 때 박사 학위를 취득했다면 사용자는 하루 평균 사이트를
1
분
더 사용한다.
이러한 해석은 변수 간의 관계를 직접적으로 설명해 주지 못한다. 예를 들어
친구의 수가 많은 사용자의 근무 시간과, 적은 사용자들의 근무 시간은 서로 다
른 방식으로 동작할 수도 있다. 이 모델은 이러한 관계를 잡아내지 못한다.
이러한 문제를 다루는 방법 중 하나는 친구 수와 근무 시간을 곱한 새로운 변수
를 도입하는 것이다. 이를 통해 친구의 수가 증가할 수록 근무 시간의 계수를 증
가(혹은 감소)시킬 수 있다.
혹은 친구 수가 증가할수록 사이트에서 보내는 시간은 어느 일정한 수준까지
증가하고, 그 후로는 사이트에서 보내는 시간이 감소할 수도 있다(어쩌면 친구
수가 너무 많아지면 부담스럽다고 느껴져서 그런 것일까?). 이러한 현상은 친구
수를 제곱한 값을 모델의 변수로 사용해서 잡아낼 수 있다.
변수가 점점 추가되기 시작하면 각 계수가 유의미한지 살펴봐야 한다. 변수끼
리 곱한 값, 변수의
log
값, 변수의 제곱 값 등 수많은 새로운 변수를 추가할 수
있기 때문이다.
15.5
적합성(Goodness of t)
다시 한번
R
제곱 값을 살펴보자. ...