Skip to Content
Databricks의 Unity Catalog를 통한 데이터 거버넌스
book

Databricks의 Unity Catalog를 통한 데이터 거버넌스

by Kiran Sreekumar, Karthik Subbarao
September 2025
Beginner to intermediate
384 pages
6h 29m
Korean
O'Reilly Media, Inc.
Content preview from Databricks의 Unity Catalog를 통한 데이터 거버넌스

7장. 통합 가시성과 검색 가능성

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

사람들은 업무 시간의 60~80%를 데이터를 찾는 데 소비합니다. 이는 엄청난 생산성 손실입니다.

Dan Vesset, IDC 그룹 부사장

데이터브릭스( )에 입사하기 전에는 거의 4년 동안 Apache Spark를 실행하는 온프레미스 데이터 플랫폼에서 근무했습니다. 데이터에 대한 규제 보고를 수행하는 여러 사용자를 지원하는 플랫폼을 운영하면서 그가 직면한 주요 문제 중 하나는 데이터 품질이었습니다. 실시간에 가까운 데이터 처리 사용 사례, 특히 Apache Kafka, Azure Event Hubs 또는 AWS Kinesis와 같은 메시지 처리 시스템에 의존하는 사용 사례에 대한 작업은 문제를 더욱 악화시켰습니다. 메시지 처리 대기열에서 전송 중인 메시지가 아무도 모르게 누락될 위험은 매우 높았습니다. 거의 95%의 경우, 이 문제는 데이터 플랫폼의 낮은 데이터 검색 가능성에서 기인했습니다. 지원팀은 데이터 손실 문제를 방지하기 위해 맞춤형 도구를 개발, 배포 및 모니터링했습니다. 지원팀은 다양한 플랫폼 측면에 대해 여러 모니터링 도구를 사용했기 때문에 전체 프로세스가 복잡해졌습니다. 이러한 도구를 구축하고 배포하면 데이터 문제를 억제하는 데 도움이 되었지만 인프라 관리의 오버헤드와 추가 비용이 발생했습니다.

데이터를 사용하여 비즈니스 애플리케이션을 구축할 때는 데이터 품질을 나중에 고려하는 것이 아니라 처음부터 우선순위를 정하는 것이 중요합니다. 데이터 품질은 방정식의 한 부분일 뿐입니다. 이 문제를 해결하고 나면 다음으로 중요한 문제는 데이터에 대한 몇 가지 주요 질문에 답하는 데이터 검색 가능성과 플랫폼 통합 가시성에 관한 것입니다:

  • 플랫폼에 어떤 데이터 자산이 있나요?

  • 데이터 자산에 액세스할 수 있는 사람을 어떻게 찾나요?

  • 데이터 수집 파이프라인의 상태는 어떤가요?

  • 팀이 데이터 플랫폼에 얼마나 많은 비용을 지출하고 있나요?

  • 비용과 효율성을 위해 워크로드를 최적화할 수 있는 방법이 있나요?

데이터와 AI 플랫폼에 대한 질문의 수는 무궁무진합니다. 데이터브릭스는 이 문제를 어떻게 해결하며, 특히 데이터 검색 가능성과 통합 가시성을 위해 Unity 카탈로그는 무엇을 제공할까요? Unity Catalog가 정확히 어떤 도움을 주는지 알아보세요.

시스템 테이블은 감사, 청구, 워크플로를 비롯한 데이터 플랫폼의 운영 데이터를 캡처하는 Databricks 호스팅 델타 테이블로, 메타스토어에 카탈로그로 표시됩니다. 시스템 테이블을 사용하여 플랫폼에 대한 통합 가시성을 구축하는 다양한 측면을 살펴봅니다.

플랫폼은 데이터 자산에 대한 데이터 품질 모니터링을 구축하기 위한 다양한 기능을 제공합니다. 레이크하우스 모니터링 도구를 사용해 데이터 품질을 평가하는 다양한 방법에 대해 설명합니다.

플랫폼의 데이터 검색 기능은 AI 기반 메타데이터 생성, 시맨틱 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Spark를 사용한 데이터 알고리즘

Spark를 사용한 데이터 알고리즘

Mahmoud Parsian

Publisher Resources

ISBN: 9798341669055