
企业元数据
|
115
如果发现在定义方面存在差距,有以下
3
种选择。
评审数据表的元数据
表中的标记或注释可以体现更多有关表及其来源的信息,可能还会体现所有权信息及其
与数据库的关系。有了所有权信息,我们就知道在发生信息丢失时应该联系谁或通知谁。
字段内容分类
目前有很多工具使用正则表达式和机器学习对表中的数据进行采样,并且可以体现表中
的信息。例如,标注社保号、信用卡号和电话号码。这些工具不仅可以用来添加列或表
的元数据,还可以告诉我们表的谱系信息。请注意,其中大多数工具可能来自供应商和
第三方工具。
审计追踪发现
与数据字段分类类似,有些工具可以通过日志、生成表等元素来推断元数据。这样可以
在没有显式声明的情况下为数据、谱系发现以及文档(如表和数据集)创建审计日志。
如何处理未记录的数据集
我们讨论了几种方法,它们可用于发现未记录的数据集的源头。但是,在某些情况下,可
能无法完全发现源头,或者会发现一些不可接受的结果。对于这些情况,也有一些办法。
联系数据所有者
如果有足够的信息找到数据所有者,可以通过电子邮件、消息或警报与他们取得联系,
从而收集更多的信息或做出修改。
锁定数据表
在某些情况下,处在未记录或已记录状态下的数据集是不可接受的。这个时候可以锁定
数据表,除了管理员团队,没有人可以访问它,甚至数据集所有者也无法访问。
删除数据
在锁定表后,最好可以启动存活时间(
TTL
)计时器,
TTL
到期后就删除数据。
审计追踪
需要记录和检查所有的通知、锁定和删除操作。还应该针对违反规则的用户采取纠正 ...