数据治理:权威指南
by Evren Eryurek, Uri Gilad, Valliappa Lakshmanan, Anita Kibunguchy-Grant, Jessi Ashdown
第 5 章 提高数据质量 提高数据质量
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
当大多数人听到数据质量这个词时,他们想到的是数据的正确性和真实性。在数据分析和数据治理中,数据质量有一系列更细微的限定条件。如果无法获得所有细节(如交易中的字段),仅有正确性是不够的。数据质量也是根据用例来衡量的,我们将对此进行说明。让我们从探讨数据质量的特征开始。
什么是数据质量?
简单地说,数据质量就是根据准确性、完整性(所有列都有值)和及时性对某些数据进行排序。在处理大量数据时,数据通常是以自动化方式获取和处理的。在考虑数据质量时,最好讨论以下问题:
- 准确性
- 采集的数据是否真正正确。例如,数据输入错误导致在小数点前输入多个零,这就是准确性问题。重复数据也是数据不准确的一个例子。
- 完整性
- 捕获的所有记录是否完整--即没有缺失信息的列。例如,如果您正在管理客户记录,请确保您捕获或以其他方式核对了完整的客户详细信息记录(如姓名/地址/电话号码)。如果要查找特定邮政编码的客户记录,则缺少字段会造成问题。
- 及时性
- 交易数据受时效性影响。例如,买卖股票的先后顺序会对买方的可用信用产生影响。及时性还应考虑到有些数据可能会过时。
此外,数据质量还会受到离群值的影响。例如,如果您查看的是零售交易,那么非常大的购买金额很可能是数据录入问题(如忘记小数点)的迹象,而不是收入上升了两个数量级的指标。这将是一个准确性问题。
确保考虑到所有可能的值。在上述零售示例中,负值很可能表示退货,而不是 "以负值购买产品",因此应采用不同的计算方法(例如,可能的影响是平均交易规模--购买和退货各占一次购买)。
最后是数据源的可信度。并非所有的数据源都是相同的--例如,从连接的温度计收集的一系列随时间变化的温度值与从水银温度计收集的一系列随时间变化的人工手写读数是不同的。机器可能会控制采样时间等变量,并与全球原子钟同步。而人类在笔记本上的记录可能会增加取样时间的差异,可能会弄脏文字,或者字迹难以辨认。从这两个来源获取数据并将其视为相同是很危险的。
数据质量为何重要?
对许多组织而言,数据直接导致决策制定:根据交易数据编制的信用评分可帮助银行家决定是否批准抵押贷款。公司股价可根据多个买家和卖家提供的金额即时计算。这类决策往往受到监管--例如,与信贷相关的决策必须收集明确的证据。对客户和贷款人来说,根据高质量的数据做出抵押贷款决策非常重要。数据质量的缺失是导致信任缺失以及做出有偏见、不道德的自动决策的根源。一个不可信的列车时刻表(基于错误或不及时的车站访问以及过去的表现)可能会导致你在通勤时做出的决定,有可能导致你总是乘坐自己的汽车,从而否定了公共交通列车存在的根本原因。
当从多个来源或领域收集数据时,数据的准确性和上下文就成了一个挑战:不仅中央存储库对数据的理解可能与数据来源不同(例如,如何定义异常值和如何处理部分数据),而且数据来源之间也可能对某些值的含义不一致(例如,如何处理负值或如何填补缺失值)。数据含义的协调可以通过以下方式实现:确保在添加新数据源时,对数据源中数据的准确性、完整性和及时性进行检查(有时是人工检查),并以使用该资源的数据分析师可以使用的方式进行描述,或根据中央存储库中的规则直接进行规范化处理。
当错误或意外数据被引入系统时,通常没有人类策展人能够发现并做出反应。在数据处理流水线中,每一步都可能引入并扩大下一步的错误,直至呈现给业务用户:
在数据收集终端,从低质量来源收集的数据可能与业务任务无关,如果不及早消除,就会造成问题。例如,考虑到移动广告印象或使用详情,其中一些数据是为工程实验室来源收集的,并不代表真实用户(而且数量可能非常大)。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access