
数据工程生命周期
|
59
(
Personally Identifiable Information
,
PII
)和其他敏感信息,可以在转换数据集时识别和
跟踪偏见。监管要求和合规处罚只会越来越多。确保你的数据资产符合越来越多的数据
法规,如
GDPR
和
CCPA
。请认真对待这件事。我们在整本书中提供了技巧,以确保你
将道德和隐私纳入数据工程生命周期。
2.2.3 DataOps
DataOps
将敏捷方法、
DevOps
和统计过程控制(
Statistical Process Control
,
SPC
)的最
佳实践映射到数据。
DevOps
旨在提高软件产品的发布和质量,而
DataOps
则针对数据
产品也是做同样的事情。
数据产品与软件产品的区别在于数据的使用方式。软件产品为终端用户提供特定的功能
和技术特性。相比之下,数据产品是围绕合理的业务逻辑和指标建立的,其用户可以做
出决策或构建执行自动化操作的模型。数据工程师必须了解构建软件产品的技术方面以
及将创建优秀数据产品的业务逻辑、质量和指标。
与
DevOps
一样,
DataOps
大量借鉴了精益生产和供应链管理,混合人员、流程和技术
以缩短实现价值的时间。正如
Data Kitchen
(
DataOps
专家)所描述的那样
注
7
:
1
DataOps 是技术实践、工作流、文化规范和架构模式的集合,能够实现:
•
快速创新和实验,以更快的速度为客户提供新的见解
•
极高的数据质量和极低的错误率
•
跨复杂的人员、技术和环境阵列进行协作
•
结果的清晰测量、监控和透明度
精益实践(如缩短交货时间和最大限度地减少缺陷 ...