76
AI
를 위한 필수 수학
2.8.11
기대값, 평균, 분산 그리고 불확실성
확률, 통계, 데이터 과학의 핵심이 되는 네 가지 요소는 다음과 같다.
●
기대값
expectation
●
평균값
mean
●
분산
variance
●
표준 편차
standard
deviation
기대값과 평균값은 확률 변수들의 평균을 정량화한 값이고, 분산과 표준 편차는 확률 변수가
평균을 중심으로 얼마나 퍼져 있는지를 정량화한 값이다. 이 값들을 통해 확률 변수의 불확실
성을 인코딩할 수 있다. 우리의 목표는 분산을 제어하여 불확실성을 줄이는 것이다. 분산이 클
수록 평균값을 사용하여 예측할 때 더 많은 오류가 발생한다. 따라서 이 분야를 연구하다 보면
무작위성을 띄는 어떤 수치에 대한 기대값과 분산을 제어하는 수학적 명제, 부등식, 정리가 대
부분이라는 것을 알게 된다.
어떤 확률 분포를 가진 확률 변수가 있는 경우 기대값(확률 변수로부터 예상되는 결괏값), 분
산(기대값으로부터 예상되는 거리의 제곱 ), 표준 편차 (기대값으로부터 예상되는 거리 )를 각
각 계산할 수 있다. 앞서 보았던 키-체중 데이터처럼 이미 표본을 추출하거나 관찰한 데이터에
서 표본 평균(평균값 ), 분산 (평균으로부터 평균 거리의 제곱), 표준 편차(평균으로부터 거리
의 평균, 평균 주변의 퍼진 정도를 측정함 )를 계산할 수 있다. 관심 있는 데이터가 아직 샘플링
되지 않았거나 관찰되지 않았다면 기대값이라는 용어를 사용하여 추측할 수 있으며, 데이터가
샘플링되거나 관찰되었다면 이러한 통계량을 계산하여 ...