
from Scratch
105
즉, ‘의미 있는’ 결과를 찾으려고 노력한다면 보통 의미 있는 결과를 찾을 수 있
다는 것을 말한다. 주어진 데이터에 다양한 가설을 검정하다 보면 이 중 하나는
반드시 의미 있는 가설로 보일 것이다. 적절한 이상치를 제거하면
0
.
05
이하의
p
-
value
를 구할 수 있을 것이다. (상관관계를 공부할 때가 떠오르는가?)
이렇게
p
-
value
의 관점에서 추론을 하면 ‘
p
해킹’이 발생할 수 있다.
3
“지구는
둥글다(
The
Earth
Is
Round
)”라는 기사는 이러한
p
해킹의 문제점을 잘 설명해
놓은 글이다.
4
데이터 과학을 제대로 하고 싶다면 다음의 세 가지를 지키자. 첫째, 가설은 데
이터를 보기 전에 세운다. 둘째, 데이터를 전처리할 때는 세워둔 가설을 잠시 잊
는다. 셋째,
p
-
value
가 전부는 아니다(대안으로 베이즈 추론을 사용할 수 있다).
7.6
예시: A/B test 해보기
데이텀에서 우리의 중요한 임무 중 하나는 사용자들에게 광고를 클릭하게 만드
는 것이고, 이를 점잖게 돌려 말하면 사용자의 경험을 최적화하는 것이다. 여러
광고주 중 한 회사가 데이터 과학자를 위한 새로운 에너지 음료를 개발하였다.
광고부 부사장은 광고
A
(“맛이 끝내줘요!”)와 광고
B
(“편향(
bias
)이 없어요!”) ...