
25
1
장
머신러닝에서 데이터로 의사 결정을 내리는 방법
그림
1-6
실제 데이터와 정규화 및 표준화 후 데이터
NOTE
단일 출처에서 데이터를 수집하는 일은 비교적 간단합니다. 그러나 여러 출처에서 모은 데이터
를 하나의 파일로 집계한다면, 데이터 유형의 일치, 시계열 데이터(또는
ML
모델이 요구하는 타임스탬프
및 날짜 범위 등)와 관련된 모든 가정의 유효성 등을 확인해야만 합니다. 흔히들 데이터의 통계적 속성
(평균, 분산 등)이 시간이 지나도 변하지 않고 고정된다는 가정을 세웁니다.
1.2.4
데이터 분석
탐색적 데이터 분석
explanatory
data
analysis
(
EDA
)은 데이터의 구조를 탐색하고 분석하는 데 사용하
는 과정입니다. 추세, 패턴, 특징들 사이의 관련성 및 상관관계(예: 한 변수(특징)가 다른 변수
와 어떤 관계를 띄는지)를 발견하려는 노력이 들어갑니다. 해결하려는 문제 유형에 따라
ML
모델을 학습시키기에 적합한 특징을 선별해야 합니다.
ML
에 잠재적으로 활용할 수 있는 입력
변수(특징)의 목록이 이 단계로 도출되는 결과입니다.
6
장에서는
EDA
를 활용하여 실습을 진
행합니다.
[그림
1
-
7
]과 [그림
1
-
8
]은
EDA
과정의 결과를 데이터 시각화 라이브러리인 시본
Seaborn
으로
그렸습니다.
5
[그림
1
-
7
]에서는
x
와
y
의 관계가 ...