
206
개발자를 위한 필수 수학
3
장에서 분산을 계산할 때처럼
n
-
1
을 사용하지 않고, 이번에는 왜
n
-
2
를 사용할까요? 수
학적 증명에 너무 깊이 들어가지 않겠지만, 단순 선형 회귀에는 변수가 하나가 아니라 두 개이
기 때문에 자유도에서 불확실성을 하나 더 증가시켜야 하기 때문입니다.
추정 표준 오차가
3
장에서 배운 표준 편차와 놀랍도록 유사합니다. 이는 우연이 아닙니다. 이
값은 선형 회귀에 대한 표준 편차이기 때문입니다.
5.10
예측 구간
앞서 언급했듯이 선형 회귀의 데이터는 모집단의 한 표본입니다. 따라서 회귀 분석은 표본만큼
만 정확합니다. 또한 선형 회귀에는 이를 따르는 정규 분포가 있습니다. 따라서 예측된 각
Y
값
은 평균과 마찬가지로 표본 통계가 됩니다. 실제로 평균은 직선을 따라 이동합니다.
2
장에서 통계를 설명할 때 분산과 표준 편차에 대해 이야기한 것을 기억하나요? 이 개념은 여
기에도 적용됩니다. 선형 회귀를 사용하면 데이터가 선형적인 방식으로 정규 분포를 따르기를
바랍니다. 회귀 직선은 종 곡선의 변화하는 ‘평균’ 역할을 합니다. [그림
5
-
16
]처럼 직선 주위
에 퍼진 데이터는 분산과 표준 편차를 반영합니다.
그림
5-16
선형 회귀는 직선을 따르는 정규 분포를 가정합니다.