
14
|
第
2
章
本章重点介绍判定数据可靠或不可靠的方法。首先将介绍数据质量的各个方面——干净数
据具备的所有属性。之后将深入探讨数据质量变差的各种原因。后一部分内容会更加详
细,原因如下。第一,影响数据质量的因素有很多,并且不是理论上的因素。只要你对数
据稍事处理,就会碰到很多因素,即使不是大部分因素。这是事实,而且质量问题出现的
频率远比我们想象的高,这就是为什么大多数数据科学家的大部分时间花在清洗数据上。
此外,质量问题的发生概率会随着数据规模的增大而增加。我的前同事
Samer Masry
说:
“在处理大规模数据时,永远要记住,那些极罕见的问题每一秒都有可能发生!”第二,
也可能是更重要的一点,正如我建议的,积极检查和维护数据质量是大家共同的职责。
分析价值链中的每一个人都应该积极参与数据质量的维护。因此,更加深入地理解数据
质量问题及其来源对每个人都有好处,其中有些问题很微妙,可能会给数据源带来严重的
偏差。
下面我们来看看数据质量的意义吧。
2.1
数据质量的各个方面
数据质量并不是可以简化成单个数字的东西。质量不是数字
5
或者
32
。原因在于,“质量”
这个词涉及诸多方面或维度。所以有不同的质量水平,其中某些问题的严重程度高于另外
一些。不过这些问题的严重程度取决于数据分析的
场景
。因此,假设你拿到了一张有州代
码但大部分邮编缺失的客户地址表格,如果你计划利用邮编而不是州代码来进行分析,这
些缺失的邮编就会成为主要障碍。
具体而言,数据质量涉及很多方面。数据应具备如下特性。
可访问性
分析师能够访问数据。这不仅涉及访问权限问题,也需要有合适的工具使数据可用和可 ...