403
8
장
복잡한 데이터셋 생성
8.4
데이터셋 크기 및 프라이버시 관리
SQL
이 제대로 동작하도록 로직을 구성하고, 그에 맞춰 코드를 작성하고, 최적화 작업을 끝냈
더라도 아직 문제가 남았습니다. 바로 결과 데이터셋의 크기입니다. 최근에는 저렴하게 이용
가능한 데이터 스토리지에 대용량 데이터셋을 저장할 수도 있으며, 연산 성능의 발전으로 정교
하고 세밀한 데이터 분석도 가능해졌습니다. 하지만
BI
도구 등에서 대용량 데이터를 사용하거
나 시스템 간에 대용량 데이터셋을 전달할 때는 데이터셋 크기로 인해 병목 현상이 발생하기도
합니다. 뿐만 아니라, 민감한 데이터를 다룰 때는 데이터 프라이버시 문제도 주의해야 합니다.
이 절에서는 대용량 데이터셋의 크기를 줄이는 방법과 데이터 프라이버시 문제를 다루는 방법
을 알아봅니다.
8.4.1
샘플링
결과 데이터셋 크기를 줄이기 위해 원본 데이터를 샘플링하는 방법을 알아봅시다.
샘플링
sampling
이란 원본 데이터의 일부를 특정 기준에 따라 추출하는 방법으로, 데이터셋이 매우 커서
일부만 추출해 분석해도 대표성이 보장된다고 판단될 때 사용하기 좋습니다. 예를 들어, 사람
들이 많이 사용하는 웹사이트의 트래픽을 분석할 때는 전체 데이터에서 일부만 샘플링해 분석
하더라도 충분히 유용한 인사이트를 얻을 수 있습니다. 샘플링을 수행하려면 두 가지를 결정해
야 합니다. 첫 번째는 샘플 데이터의 크기입니다. 데이터 크기를 최대한 줄이면서도 중요한 정
보를 많이 잃지 않게끔 적절한 수준으로 샘플 크기를 결정합니다. ...