128
개발자를 위한 필수 수학
복권에 당첨됩니다. 당첨자가 결정될 때 왜 우리는 놀라지 않을까요? 누군가 당첨자를 예측하
지 않는 한, 무작위한 누군가가 운이 좋았다는 것 외에는 의미 있는 일이 아니기 때문입니다.
이는
5
장에서 살펴볼 상관관계
correlation
에도 적용됩니다. 수천 개의 변수가 포함된 대규모 데이
터셋에서
0
.
05
인
p
값으로 통계적으로 유의미한 결과를 쉽게 찾을 수 있을까요? 당연하죠! 수
천 개를 찾을 수 있습니다. 심지어 니콜라스 케이지
Nicolas
Cage
가 찍은 영화 개수가 수영장에서
발생한 연간 익사자 수와 상관관계가 있다는 증거도 있습니다(
https
://
oreil
.
ly
/
eGxm0
).
따라서 텍사스 명사수 오류를 방지하고 빅 데이터 오류의 희생양이 되지 않으려면 구조화된 가
설 검정을 사용하고 해당 목적에 맞는 데이터를 수집하세요. 데이터 마이닝을 활용하는 경우,
새로운 데이터를 확보해 여전히 유효한 결과인지 확인하세요. 마지막으로 항상 우연일 수 있는
가능성을 고려하세요. 상식적으로 설명할 수 없다면 우연일 가능성이 높습니다.
데이터를 수집하기 전에 가설을 세우는 방법을 배웠지만, 데이터 마이닝은 데이터를 수집한 다
음 가설을 세웁니다. 아이러니하게도 가설에서 출발하는 것이 더 객관적인 경우가 많습니다.
왜냐하면 가설을 세운 다음 의도적으로 가설을 증명하거나 반증할 데이터를 찾기 때문입니다.
3.8
마치며
이 장에서 많은 것을 배웠네요. 여기까지 온 것을 축하합니다! 아마도 이 책에서 가장 어려운
주제였을 ...