
143
第 5 章
源系统中的数据生成
欢迎来到数据工程生命周期的第一阶段:源系统中的数据生成。正如我们之前所描述
的,数据工程师的工作是从源系统获取数据,对其进行处理,使其有助于为下游用例提
供服务。但在获取原始数据之前,你必须了解数据存在于何处、如何生成以及其特征和
特性。
本章涵盖一些流行的操作型源系统模式和重要的源系统类型。现在有许多数据生成的源
系统,我们无法详尽列举所有这些系统。我们重点关注数据生成的源系统以及你在使用
源系统时应该考虑的事项。我们还将讨论数据工程的底层设计,以及如何将其应用于数
据工程生命周期的第一阶段(如图
5-1
所示)。
数据工程生命周期
生成
分析
数据管理
获取
机器学习
转换
反向 ETL
服务
存储
安全 软件工程编排数据架构
底层设计
:
DataOps
图 5-1:源系统为数据工程生命周期的其余部分生成数据
随着数据的激增,尤其是共享数据(接下来讨论)的兴起,我们预计数据工程师的角色
将在很大程度上转向理解数据源和目的地之间的相互作用。数据工程的最基本的数据管