제2장. 데이터 품질은 완벽한 데이터가 아니다
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
마크가 데이터 경력을 시작하며 저지른 초기 실수 중 하나는 조직에 완벽한 데이터가 제공할 수 있는 장점을 내세워 데이터 품질 개념을 내부적으로 설득하려 했던 것이다. 냉혹한 현실은 데이터 실무자를 제외하면 비즈니스 현장에서 데이터를 진정으로 신경 쓰는 사람은 거의 없다는 점이다. 그들은 오히려 데이터로 무엇을 할 수 있는지에 관심이 있을 뿐이다. 데이터가 추상적인 개념이라는 점(특히 비기술적 이해관계자들에게)과 맞물려, 데이터 품질에 대해 기업 내 공허한 공간에 소리쳐도 별다른 성과를 거두기 어렵다. 품질과 비즈니스 가치를 연결하는 것은 어렵기 때문에, 데이터 품질은 '있으면 좋은' 투자 항목으로 전락하기 쉽다. 마크에게 이 역학은 그가 순수한 데이터의 가치를 내부적으로 설득하려던 시도를 중단하고, 대신 품질 저하로 인해 중요한 비즈니스 워크플로우(종종 수익 창출 워크플로우)에 미치는 위험에 집중했을 때 극적으로 바뀌었다. 이 장에서는 데이터 품질을 정의하고, 현재 아키텍처 모범 사례가 어떻게 데이터 품질 문제의 환경을 조성하는지, 그리고 저품질 데이터가 비즈니스에 미치는 비용이 무엇인지 설명함으로써 이 교훈을 확장합니다.
데이터 품질 정의
"데이터 품질이란 무엇인가?"는 개념의 광범위한 영향력 때문에 답하기 까다로운 단순한 질문이지만, 그 정의는 데이터 계약이 필요한 핵심 이유입니다. 역사적으로 기록된 최초의 데이터 형태는 기원전 19,000년까지 거슬러 올라가며, 이후 모든 세기 동안 농업, 제조업, 컴퓨터 시스템에 이르기까지 데이터 품질은 중요한 요소였습니다. 이 책에서는 데이터베이스 시스템과 관련된 데이터 품질에 중점을 둡니다. 에드거 F. 코드(Edgar F. Codd)의 선구적인 논문 "대규모 공유 데이터뱅크를 위한 관계형 데이터 모델(A Relational Model of Data for Large Shared Data Banks)" 이 관계형 데이터베이스 학문을 시작하게 된 시점인 1970년경이 이 책의 시점입니다. 그림 2-1은 이 타임라인과 이 책의 중점을 간략히 보여줍니다.
그림 2-1. 데이터 산업 단계의타임라인과 이 책의 초점 영역
이 시기에는 MIT의 총체적 데이터 품질 관리 프로그램(Total Data Quality Management)의 리처드 Y. 왕(Richard Y. Wang)과 같은 저명한 학자들의 주도로 데이터 품질 관리라는 분야가 등장하며 학문적 체계가 정립되었습니다. 왕 박사와 다이앤 스트롱 박사의 가장 많이 인용된 연구 논문(1996년)에서 그들은 데이터 품질을 다음 네 가지 차원 중 "데이터 소비자가 사용하기에 적합한 데이터"로 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access