
Data Science
80
지는 않다. 만약 사용자들의 교육 수준에 대한 정보가 없었다면 서부의 데이터
과학자가 더 사교적이라 결론을 내릴 수밖에 없을 수도 있다.
5.4
상관관계에 대한 추가적인 경고 사항
상관관계가
0
이라는 것은 두 변수 사이에 선형적인 관계가 없다는 것을 의미한
다. 하지만 다른 종류의 관계가 존재할 수도 있다.
x = [-2, -1, 0, 1, 2]
y = [ 2, 1, 0, 1, 2]
예를 들면 위의 경우,
x
와
y
의 상관관계는
0
일 것이다.
하지만 분명히
y
는
x
의 절댓값이라는 관계를 가지고 있다. 이러한 관계는
x_i
와
mean(x)
의 관계가 어떻게
y_i
와
mean(y)
의 관계에 영향을 주는지 살펴보는 방
식(즉, 상관관계로 연관성을 살펴보는 방식)으로는 설명할 수 없다.
또한 상관관계는 연관성이 얼마나 크고 작은지 설명해 주지 않는다.
x = [-2, -1, 0, 1, 2]
y = [99.98, 99.99, 100, 100.01, 100.02]
이 두 변수는
1
의 상관관계를 갖는다. 하지만 (물론 무엇을 측정하느냐에 따라
다르겠지만) 이 관계는 문제를 분석하는 데 무의미할 수도 있다.
5.5
상관관계와 인과관계
아마 “상관관계는 인과관계를 의미하지 않는다(
correlation
is
not
causation
)”라
는 얘기를 많이 ...