
68
第 3 章
设计好的数据架构
好的数据架构提供了使数据生命周期的每一步和底层设计无缝衔接的能力。我们将从定
义
数据架构
开始,然后讨论组件和注意事项。然后,我们将介绍特定的批处理模式(数
据仓库、数据湖)、流处理模式以及统一批处理和流处理的模式。在整个过程中,我们将
强调利用云的功能来提供可扩展性、可用性和可靠性。
3.1
什么是数据架构
成功的数据工程建立在坚如磐石的数据架构之上。本章旨在回顾一些流行的架构方法和
框架,然后制定我们对什么是“好”数据架构的固执己见的定义。的确,我们不会让每
个人都开心。尽管如此,我们仍将为
数据架构
制定一个务实的、特定领域的工作定义,
我们认为它适用于规模、业务流程和需求截然不同的公司。
什么是数据架构?当你停下来分析它时,话题变得有点模糊。研究数据架构会产生许多
不一致且经常过时的定义。这很像我们在第
1
章中定义
数据工程
时
—
没有达成共识。
在一个不断变化的领域,这是可以预料的。那么,在本书中,
数据架构
是什么意思呢?
在定义术语之前,必须了解它所处的上下文。让我们简要介绍一下企业架构,这将构成
我们对数据架构的定义。
3.1.1
企业架构定义
企业架构有很多子集,包括业务、技术、应用程序和数据(如图
3-1
所示)。因此,许多
框架和资源专门用于企业架构。事实上,架构是一个令人惊讶的有争议的话题。
企业
一词得到不同的反应。它让人想起枯燥的公司办公室、命令
-
控制型
/
瀑布式规划、
停滞不前的商业文化和空洞的标语。尽管如此,我们还是可以在这里学到一些东西。
...