91
Chapter 2 -
데이터, 데이터, 또 데이터
인 확률 밀도 함수, 즉 ‘분포’를 알 수는 없다. 실제 데이터는 항상 인구의 표본 (모집단의 샘플 )이기 때문이다.
따라서 확률 이론에 의해 주어진 확률 분포를 사용하여 근본적인 분포를 추정하거나 모델링하려고 하는 것이
다. 이런 이유로 앞서 살펴본 예시에서 키와 체중 피처를 성별에 따라 구분할 때는 가우스 분포가 적절하다.
●
이산 확률 변수에서 사용되는 ‘분포’는 확률 질량 함수 또는 누적 분포 함수 (확률 변수가 특정 값 이하인 확
률을 의미하는 함수,
f
(
x
) =
prob
(
X
≤
x
))
를 말한다.
●
연속 확률 변수에서 사용되는 ‘분포’는 확률 밀도 함수 또는 누적 분포 함수를 의미할 수 있으며, 이 함수의
적분은 확률 변수가 특정 값 이하일 확률을 나타낸다.
●
여러 종류의 확률 변수가 있는 경우 (이산, 연속 또는 두 가지가 혼합된 경우 )에서 ‘분포’는 여러 확률 변수
의 결합 확률 분포를 의미한다.
일반적인 목표는 이상적인 수학 함수와 관찰 또는 현상을 적절하게 대응시키는 것이다. 예를
들어 앞서 살펴본 분포들을 가진 확률 변수와 우리가 관찰한 실제 데이터의 경험적 분포 사이
의 관계를 적절하게 설정하는 것이다. 실제 데이터로 작업을 해보면 데이터셋의 각 피처는 확
률 변수를 사용하여 모델링할 수 있다. 따라서 다른 의미에서 보면 해당 분포를 가진 수학적 확
률 변수는 관찰한 피처의 이상적인 버전이다.
분포는 인공지능 분야의 모든 곳에 나타난다. 예를 들면 신경망의