
19
1
장
탐색적 데이터 분석
단일 학문으로서의 통계학은 지난 한 세기 동안 대부분의 발전을 이루었다. 통계학의 수학적
기반이라고 할 수 있는 확률론은
17
세기에서
19
세기에 걸쳐, 토머스 베이즈, 피에르시몽 드 라
플라스, 카를 가우스가 이룬 업적을 기반으로 발전해왔다. 확률의 순수 이론적인 측면과는 달
리, 통계학은 데이터 분석과 모델링을 다루는 일종의 응용과학이라고 할 수 있다. 엄밀한 의미
의 과학적 학문의 하나로서, 현대 통계학은
1800
년대 후반 프랜시스 골턴과 칼 피어슨까지 그
기원을 거슬러 올라간다.
20
세기 초
실험계획법
과
최대우도추정
의 핵심 개념을 소개한 로널드
피셔는 현대 통계학의 대표적인 선구자다. 이 두 개념을 비롯한 여러 통계 개념은 데이터 과학
곳곳에 깊숙이 자리하고 있다. 이 책의 중요한 목표는 이러한 개념들을 분명히 이해하고, 데이
터 과학과 빅데이터라는 측면에서 그것들이 왜 중요한지, 동시에 부족한 것은 무엇인지를 정확
히 파악하는 데 있다.
이 장에서는 모든 데이터 과학 프로젝트의 첫 걸음이라고 할 수 있는 자료 탐색에 대해 알아본
다.
탐색적 데이터 분석
exploratory
data
analysis
(
EDA
)은 통계학에서 비교적 새로운 영역이다. 이전의
통계학에서는
추론
, 즉 적은 표본(샘플 )
1
을 가지고 더 큰 모집단에 대한 ...