
127
3
장
기술 통계와 추론 통계
3.7
빅 데이터 고려 사항과 텍사스 명사수 오류
이 장을 마무리하기 전에 마지막으로 한 가지 더 생각해보겠습니다. 앞서 논의했듯이 무작위성
은 연구 결과를 검증하는 데 중요한 역할을 하며, 항상 그 가능성을 고려해야 합니다. 안타깝게
도 빅 데이터, 머신러닝, 기타 데이터 마이닝 도구로 인해 과학적인 방법이 갑자기 거꾸로 수행
되고 있습니다. 이는 불안정한 결과를 초래할 수 있습니다. 게리 스미스
Gary
Smith
의 저서 『숫자를
읽는 힘』 (지식노마드,
2021
)에 나온 예를 들어 그 이유를 설명해보겠습니다.
공정한 덱
deck
에서 카드 네 장을 뽑는다고 가정합니다. 여기에는 네 장의 카드를 뽑고 관찰하는
것 외에는 별다른 규칙이나 목표가 없습니다. 필자가 카드 네 장을 뽑았더니 두 개의
10
과
3
,
2
가 나왔습니다. 그리고 이렇게 말했습니다. “이거 흥미롭네요.
10
이 두 장 그리고
3
,
2
가 나왔
군요. 이게 의미가 있나요? 다음에 뽑을 네 장의 카드도 연속된 두 개의 숫자와 한 쌍의 숫자가
나올까요? 여기서 작동하는 기본 모델은 뭘까요?”
필자가 어떻게 했는지 봤나요? 완전히 무작위한 결과에서 패턴을 찾았을 뿐만 아니라 예측 모
델을 만들려고 했습니다. 여기서 미묘한 점은 우리는 특정 패턴을 가진 카드 네 장을 얻는 ...