Skip to Content
SQL로 시작하는 데이터 분석
book

SQL로 시작하는 데이터 분석

by 캐시 타니무라, 박상근
August 2022
Beginner to intermediate
436 pages
9h 43m
Korean
Hanbit Media, Inc.
Content preview from SQL로 시작하는 데이터 분석
403
8
복잡한 데이터셋 생성
8.4
데이터셋 크기 및 프라이버시 관리
SQL
이 제대로 동작하도록 로직을 구성하고, 그에 맞춰 코드를 작성하고, 최적화 작업을 끝냈
더라도 아직 문제가 남았습니다. 바로 결과 데이터셋의 크기입니다. 최근에는 저렴하게 이용
가능한 데이터 스토리지에 대용량 데이터셋을 저장할 수도 있으며, 연산 성능의 발전으로 정교
하고 세밀한 데이터 분석도 가능해졌습니다. 하지만
BI
도구 등에서 대용량 데이터를 사용하거
나 시스템 간에 대용량 데이터셋을 전달할 때는 데이터셋 크기로 인해 병목 현상이 발생하기도
합니다. 뿐만 아니라, 민감한 데이터를 다룰 때는 데이터 프라이버시 문제도 주의해야 합니다.
이 절에서는 대용량 데이터셋의 크기를 줄이는 방법과 데이터 프라이버시 문제를 다루는 방법
을 알아봅니다.
8.4.1
샘플링
결과 데이터셋 크기를 줄이기 위해 원본 데이터를 샘플링하는 방법을 알아봅시다.
샘플링
sampling
이란 원본 데이터의 일부를 특정 기준에 따라 추출하는 방법으로, 데이터셋이 매우 커서
일부만 추출해 분석해도 대표성이 보장된다고 판단될 때 사용하기 좋습니다. 예를 들어, 사람
들이 많이 사용하는 웹사이트의 트래픽을 분석할 때는 전체 데이터에서 일부만 샘플링해 분석
하더라도 충분히 유용한 인사이트를 얻을 수 있습니다. 샘플링을 수행하려면 두 가지를 결정해
야 합니다. 첫 번째는 샘플 데이터의 크기입니다. 데이터 크기를 최대한 줄이면서도 중요한 정
보를 많이 잃지 않게끔 적절한 수준으로 샘플 크기를 결정합니다. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

행동 데이터 분석

행동 데이터 분석

플로랑 뷔송
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
파이썬으로 살펴보는 아키텍처 패턴

파이썬으로 살펴보는 아키텍처 패턴

오현석, 해리 퍼시벌, 밥 그레고리
실무로 통하는 클린 코드

실무로 통하는 클린 코드

막시밀리아노 콘티에리

Publisher Resources

ISBN: 9791169210089