
85
2
장
데이터 준비
보고서 작성과 대시보드 생성을 위해 데이터를
BI
도구에 가져올 때, 그 데이터가 어떻게 사용
될지 미리 이해하는 일이 중요합니다. 데이터셋은 분석가가 아닌 일반 사용자도 살펴볼 수 있
을 정도로 꼼꼼하게 준비돼 있어야 합니다. 데이터 크기가 작으면서도 이해하기 쉽게끔 집계돼
있어야 하며, 대시보드를 실행하는 데 시간이 오래 걸리지 않도록 데이터를 빠르게 로드할 수
있어야 합니다. 도구가 어떻게 동작하는지, 작은 데이터셋으로 원하는 분석이 잘 수행되는지,
큰 데이터셋에서도 집계가 잘 수행되도록 설계돼 있는지 등을 미리 파악하면 좋습니다. 모든
경우에 적합한 한 가지 정답은 없습니다. 다만 데이터가 어떻게 사용될지 미리 알고 그에 맞게
데이터를 적절히 셰이핑하면 됩니다.
데이터셋을 시각화하기에 가장 좋은 형태는, 데이터를 상용 소프트웨어로 생성했든
R
, 파이썬,
자바스크립트 같은 프로그래밍 언어로 생성했든 상관없이 데이터가 더 작고, 보기 좋게 집계돼
있으며, 핵심적인 내용만 저장된 형태입니다. 데이터 셰이핑을 위해서는 일반 사용자가 결과
데이터셋을 원하는 대로 필터링해 보게끔 적절한 집계 수준과 데이터 범위 등 여러 요소를 고
려해야 합니다. 예를 들어, 사용자가 ‘모든’ 범위의 데이터셋뿐만 아니라 특정 필드의 값을 기준
으로 특정 ...