第 4 章. 自助数据平台的原理
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
简单就是减去显而易见的东西,加上有意义的东西。
约翰-前田
到目前为止,我已经提出了实现数据 Mesh 的两个基本转变:以业务领域为导向的分布式数据架构和所有权模式,以及将数据作为可用和有价值的产品进行共享。随着时间的推移,这两个看似简单而直观的转变可能会带来不良后果:每个领域的工作重复、运营成本增加,以及各领域之间可能出现大规模的不一致和不兼容。
期望领域工程团队除了构建应用程序和维护数字产品之外,还能拥有和共享 分析数据,并将其作为一种产品,这引起了从业人员及其领导者的合理担忧。在对话中,我经常听到领导者的担忧包括:"我如何管理这些数据?"如果每个领域都需要构建和拥有自己的数据,我该如何管理领域数据产品的运营成本?""数据工程师本来就难找,我怎么招聘每个领域的数据工程师?"这似乎是每个团队的过度工程和重复劳动"。"我该购买什么技术来提供所有数据产品的可用性特征?"如何以分布式方式实施管理以避免混乱?"复制的数据怎么办--如何管理?等等。同样,领域工程团队和从业人员也会提出这样的问题:"我们如何才能扩大团队的责任范围,使其不仅能构建运行业务的应用程序,还能共享数据?
解决这些问题是 Data Mesh 的第三个原则 ,即作为平台的自助式数据基础设施存在的原因。数据和分析平台并不缺乏,但我们需要对其进行改造,使其能够以分散的方式,为新的通用技术人员 ,扩大共享、访问和使用分析数据的规模 。这就是 Data Mesh 平台的关键区别。
图 4-1描述了从每个域中提取与域无关的功能,并将其转移到作为平台的自助式基础架构的过程。该平台由专门的平台团队构建和维护。
图 4-1. 将领域无关的基础设施提取到单独的数据平台中
在本章中,我将平台思维应用到底层基础架构能力中,以阐明在 Data Mesh 的背景下平台一词的含义。然后,我将分享 Data Mesh 底层平台的独特特性。后面的章节,如第 9章和第 10 章,将进一步详细介绍平台的功能以及如何进行平台设计。现在,让我们来讨论一下 Data Mesh 的底层平台与我们现在的许多解决方案有何不同。
备注
在本章中,我使用Data Mesh 平台这一短语作为一组底层数据基础设施功能的简称。平台一词的单一形式并不意味着具有紧密集成功能的单一解决方案或单一供应商。它只是一组技术的占位符,人们可以用它来实现"数据网格平台思维 "中提到的目标,这是一组独立但又能很好地协同工作的技术。
Data Mesh 平台:对比
有大量的技术解决方案属于数据基础设施的范畴,通常被摆放成一个平台 。以下是现有平台功能的一个小样本:
-
以 湖、仓库或湖屋的形式存储分析数据
-
数据处理框架和计算 引擎,以批处理和流模式处理数据
-
数据查询语言,基于 计算数据流编程或类似代数 SQL 语句的两种模式
-
数据目录解决方案 可实现数据管理以及发现整个组织的所有数据
-
管道工作流管理,协调 复杂的数据管道任务或 ML 模型部署工作流
要实现 Data Mesh,仍然需要其中的许多功能。不过,数据网格平台的方法和目标发生了转变。让我们来做一个简单的对比。
图 4-2显示了数据网格平台与现有平台相比的一系列独特特征。请注意,数据网格平台可以利用现有技术,但又能提供这些独特的特性。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access