627
부록 B
머신러닝 프로젝트 체크리스트
8
.
데이터를 조작하기 편리한 형태로 변환합니다 (데이터 자체는 바꾸지 않습니다 ).
9
.
민감한 정보가 삭제되었거나 보호되었는지 검증합니다 (예를 들면 개인정보 비식별화 ).
10
.
데이터의 크기와 타입 (시계열, 표본, 지리정보 등 )을 확인합니다.
11
.
테스트 세트를 샘플링하여 따로 떼어놓고 절대 들여다보지 않습니다 (데이터 염탐 금지! ).
B.3
데이터를 탐색합니다
노트
이 단계에서는 해당 분야의 전문가에게 조언을 구하세요.
1
.
데이터 탐색을 위해 복사본을 생성합니다 (필요하면 샘플링하여 적절한 크기로 줄입니
다).
2
.
데이터 탐색 결과를 저장하기 위해 주피터 노트북을 만듭니다.
3
.
각 특성의 특징을 조사합니다.
●
이름
●
타입 (범주형, 정수/부동소수, 최댓값/최솟값 유무, 텍스트, 구조적인 문자열 등 )
●
누락된 값의 비율 (%)
●
잡음 정도와 잡음의 종류(확률적, 이상치, 반올림 에러 등 )
●
이 작업에 유용할지 여부
●
분포 형태 (가우시안, 균등, 로그 등)
4
.
지도 학습 작업이라면 타깃 속성을 구분합니다.
5
.
데이터를 시각화합니다.
6
.
특성 간의 상관관계를 조사합니다.
7
.
수동으로 문제를 해결할 수 있는 방법을 찾아봅니다.
8
.
적용이 가능한 변환을 찾습니다.