413
8
장
복잡한 데이터셋 생성
분석을 수행할 때는 사용자의
PII
가 다른 곳으로 유출되지 않도록
SQL
쿼리의 결과 데이터셋
에
PII
를 포함하지 않는 편이 좋습니다. 반드시 필요한 경우에는
PII
를 그대로 포함하는 대신
다른 값으로 변환해 사용해야 합니다. 이 외에도 민감한 데이터를 안전하게 저장하는 방법은
다양합니다. 이메일 주소가 그대로 데이터베이스에 저장되지 않도록 데이터베이스와 이메일
시스템 사이에 별도의 보안 데이터 파이프라인을 구축하는 등 여러 방법을 고려해봅시다. 지금
까지 알아본 프라이버시 보호 방법을 검토할 때 사내 기술자 및 법률 전문가의 도움을 받으면
개인의 프라이버시를 보호하면서도 수준 높은 데이터 분석을 수행할 수 있습니다.
8.5
결론
SQL
쿼리를 사용하는 모든 분석에서는 코드를 구성하는 데 많은 결정이 필요하며, 복잡도 관
리, 쿼리 성능 최적화, 결과 데이터셋에서의 프라이버시 보호 등을 고려해야 합니다. 이 장에서
는 코드 구성에 활용할 여러 가지 방법과 전략, 특수한
SQL
문법을 알아봤습니다. 모든 기법을
다 이해하지 못했다고 해서 효율적인 분석 능력을 갖춘 데이터 분석가나 데이터 과학자가 될
수 없다고 지레 겁먹거나 부담감을 가질 필요는 없습니다. 책에서 다룬 분석 기법들을 사용할
수 없는 분석도 있고, 이 외에 다른 방법으로 분석 업무를 수행할 수도 있습니다.
SQL
로 데이
터를 분석하는 경험을 많이 쌓다 보면 이 장에서 배운 기법을 잘 활용할 기회가 계속 생길 것입
니다.