
203
5
장
선형 회귀
[그림
5
-
15
]의 데이터셋을 하나씩 살펴봅시다. 왼쪽부터 첫 번째 그림은 양의 상관관계가 높
지만 데이터 포인트가 세 개에 불과합니다. 데이터가 부족하기 때문에
p
값이
0
.
34913
으로 크
게 높아지고 데이터가 우연히 발생했을 가능성을 증가시킵니다. 데이터 포인트가 세 개만 있으
면 선형적인 패턴을 볼 가능성이 높지만, 단순히 두 포인트 사이를 직선으로 연결하는 것과 크
게 다르지 않습니다. 여기서 중요한 규칙을 생각할 수 있습니다. 데이터가 많을수록, 특히 데이
터가 직선 주위로 몰리는 경우
p
값이 감소합니다.
두 번째 그림은 방금 다룬 예시와 같습니다. 데이터 포인트가
10
개에 불과하지만 선형 패턴을
매우 멋지게 형성합니다. 강한 양의 상관관계가 있을 뿐만 아니라
p
값도 매우 낮습니다.
p
값
이 이렇게 낮으면 사회학적 또는 자연적인 것이 아니라 공학적으로 엄격하게 통제된 프로세스
를 측정하고 있다고 확신할 수 있습니다.
[그림
5
-
15
]의 오른쪽 두 그림에서는 선형 관계를 찾지 못했습니다. 상관 계수가
0
에 가까워
상관관계가 없음을 나타냅니다.
p
값을 보면 ‘우연’이 중요한 역할을 했음을 나타냅니다.
규칙은 다음과 같습니다. 직선을 닮은 데이터가 많을수록 상관관계가 높고
p
값이 작아집니다.
데이터가 많이 흩어져 있거나 희박할수록 ...