
41
2
장
데이터 준비
데이터 준비 단계가 분석에서 아주 중요한 부분을 차지한다는 데는 의심할 여지가 없습니다.
데이터 과학자가 데이터 준비에 시간을 얼마나 많이 할애하는지 정확하게 알 수는 없지만,
2014
년 뉴욕 타임스의 보고에 따르면 데이터 과학자는 전체 시간의
50
~
80
%를 데이터를 정
제하거나 랭글링
wrangling
1
하는 데 사용합니다.
2
한편
2016
년 크라우드플라워
CrowdFlower
에서 수
행한 설문에서는 데이터 과학자들이 전체 시간의
60
%를 분석과 모델링을 위한 데이터 정제 및
체계화에 사용한다고 응답했습니다.
3
데이터 준비는 매우 일반적인 작업이므로 데이터 먼징
data
munging
4
, 데이터 랭글링 등으로 부르기도 합니다. 이 모든 준비 작업이 그저 생각 없이 이뤄지
는 단순 작업일까요? 아니면 분석 프로세스에 중요한 업무일까요?
데이터 사전, 즉 각 필드에 대한 설명, 데이터 수집 방법, 데이터 간의 관계 등이 깔끔하게 정리
된 문서나 저장소 등이 있으면 데이터 준비가 훨씬 수월합니다. 아쉽게도 이렇게 잘 정리된 데
이터 사전이 준비된 경우는 흔치 않습니다. 문서화가 중요하다는 건 알지만 다른 작업에 비해
우선순위가 낮아 뒤로 밀려나기도 하고, 새로운 필드나 테이블이 추가되거나 데이터 수집 방법
이 변경되더라도 문서가 업데이트되지 않는 ...