附录 B. 数据产品和数据合同
数据产品及其合同作为可扩展性数据管理的轻量级机制正变得越来越流行,有助于确保数据质量不是事后考虑的问题,而是生命周期每个阶段的基本考虑因素。
数据产品
数据产品 是指从原始数据中整理出来的输出结果,为最终用户提供价值,通常以洞察力、可操作信息或分析的形式出现。它们是在数据工程生命周期的各个阶段创建的,包括摄取、存储、转换和服务。数据产品有多种形式,如报告、仪表盘、机器学习模型或 API。
图 B-1展示了使用 数据产品画布设计数据产品的一般结构。该框架通过指导创建一致、可靠和文档齐全的数据产品,支持可扩展性数据治理。每个数据产品都由八个关键构件组成:
-
域名
-
数据产品名称
-
消费者和用例
-
数据合同(稍后详述)
-
数据源文档
-
数据产品架构,包括转换管道和流程
-
共识语言,建立对术语的共同理解
-
数据产品分类(与源对齐、聚合或与消费者对齐)
图 B-1. 数据产品画布为设计整个组织的数据产品提供了结构化方法
数据合同
从数据治理的角度来看,数据产品 的关键组成部分 是数据合同。数据合同是数据生产者(如源系统所有者、数据工程师)和数据消费者(如分析师、数据科学家、业务用户)之间的正式协议,定义了数据交换的期望、责任和标准。它们可确保数据始终符合商定的特定质量、格式和交付要求。
Chad Sanderson 和 Mark Freeman 在《数据合同》(O'Reilly 出版社)一书中将这些合同定义为 "一种将面向软件的协作扩展到数据团队的机制,通过人工在环审查提高数据质量,就像同样的系统促进产品团队的代码质量一样。
数据合约的关键组成部分包括
- 数据模式
-
数据合约应明确定义数据字段的结构、类型和关系。它应链接到相关的数据策略和标准,并指定每个字段的元数据要求。
- 质量标准
-
数据合同应制定数据准确性、完整性和一致性标准。还应指定负责数据质量监控和改进的角色。
- 交付时间表
-
数据合同应规定数据交付的时间和频率,确保与既定的数据保留策略保持一致。包括经管理部门批准的处理迟交或缺失数据的流程。
- 服务水平协议(SLA)
-
数据合同应定义数据交付和问题解决的性能指标和响应时间,并纳入经管 理批准的数据可用性和可访问性指标。数据合同应包括违反 SLA 的上报程序以及 SLA 变更的治理审查和批准流程。
- 安全、隐私和管理
-
数据合同应确保数据处理符合相关隐私法律和安全协议。参考治理策略定义的具体数据分类级别,并包括数据屏蔽和敏感数据加密的要求。明确规定访问控制策略和程序、不同隐私分类的数据处理准则以及相关合规要求(如 GDPR、CCPA、HIPAA)。明确定义数据所有者、管理者和其他治理利益相关者的角色。
- 变更管理
-
数据合同应概述管理模式变更、数据源修改和其他更改的程序。包括治理批准的变更控制程序,并明确模式变更或数据转换所需的批准。定义通知利益相关者变更的沟通协议,以及更新相关文档和元数据的流程 。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access