Skip to Content
基于Databricks的Unity Catalog数据治理实践
book

基于Databricks的Unity Catalog数据治理实践

by Kiran Sreekumar, Karthik Subbarao
September 2025
Intermediate to advanced
384 pages
4h 53m
Chinese
O'Reilly Media, Inc.
Content preview from 基于Databricks的Unity Catalog数据治理实践

第 4 章. Unity 目录和计算

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

"技术;多用户计算机 "是 1984 年 8 月 23 日《纽约时报》印刷版上的一篇文章。文章引用了财富系统公司董事长詹姆斯-坎贝尔(James S. Campbell)的一段话:"直到现在,世界还没有真正相信 Unix 和多用户系统。现在它相信了。

时间快进到 2006 年,AWS 推出 S3,宣布推出第一个云平台,紧随其后的 Elastic Cloud Compute 成为许多基于云的现代应用的支柱。2008 年,谷歌推出了 Cloud,并发布了其 App Engine。同年,微软发布了其云计算操作系统 Windows Azure。此后,云计算的进步推动数据平台向云端发展,如今,所有主要的数据处理平台都是云原生平台,Databricks 也不例外。

当您将最宝贵、最敏感的数据托付给云平台时,将这种信任延伸到帮助您释放其全部潜力的云端数据处理平台是至关重要的。当您了解数据平台实施的管理标准时,信任就会建立起来。本章旨在进一步加强您在使用 Unity Catalog 满足治理需求时对 Databricks 平台的信任。

在 Nexa 精品店,数据治理是重中之重,在选择 Unity Catalog 作为其数据智能平台的治理解决方案时,数据治理在决策过程中发挥了核心作用。Nexa 的数据架构师认识到,在基于 Cloud 的数据平台中,元存储只是数据治理拼图中的一块。计算引擎对用户数据执行 FGAC 的能力对于一个安全的数据平台同样至关重要。多个计算引擎处理数据会使 FGAC 的实施复杂化,从而难以保持一致的治理标准。带 Unity Catalog 的 Databricks 数据智能平台通过在其所有计算引擎上提供一致的治理功能而脱颖而出,无论最终用户如何消费数据。了解 Unity Catalog 的计算架构,包括其功能和局限性,让 Nexa 的数据架构师更容易做出决定。本章将探讨 Unity Catalog 如何精心设计和治理 Databricks 的计算选项,以建立和维护用户的信任。

在设计数据治理解决方案时,需要考虑两个部分:元存储和计算引擎。在此,我们将讨论实施数据治理解决方案的不同架构模式及其复杂性。Databricks 提供多种计算选项,包括经典架构和无服务器架构。我们在此探讨支持 Unity Catalog 的经典计算选项,并解释您应如何使用它们来满足您的计算需求。无服务器计算是一种支持 Unity Catalog 访问控制的强大选项。我们将探讨该架构,并确定无服务器是最合适选择的特定用例。

实施治理:一个由两部分组成的问题

正如 Nexa 的数据架构师正确指出的那样,仅仅在元存储中定义访问控制不足以确保有效的数据治理。相反,所有与数据交互的计算引擎都必须严格遵守并执行元存储中指定的访问控制。事实证明,这一要求是一项重大的技术挑战。Databricks 提供不同的计算类型,包括经典通用计算、无服务器通用计算、SQL Warehouse Pro 和 SQL Warehouse serverless。在这些计算类型之上,用户通过多种编程语言和接口访问数据,包括 SQL、Python、Scala、R 和基于 API 的远程执行,这使得在各种工具和计算引擎之间实施通用治理框架变得复杂。

在设计数据治理解决方案时,将其分解为两个基本组件会有所帮助:

元存储

作为所有访问控制和数据元数据的集中存储库 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

AI技術を活かすためのスキル ―データをビジネスの意思決定に繋げるために

AI技術を活かすためのスキル ―データをビジネスの意思決定に繋げるために

Daniel Vaughan, 西内 啓, 長尾 高弘
量子计算机编程:从入门到实践

量子计算机编程:从入门到实践

Eric R. Johnston, Nicholas Harrigan, Mercedes Gimeno-Segovia
Google系统架构解密: 构建安全可靠的系统

Google系统架构解密: 构建安全可靠的系统

Heather Adkins, Betsy Beyer, Paul Blankinship, Piotr Lewandowski, Ana Oprea, Adam Stubblefield

Publisher Resources

ISBN: 9798341669109