Skip to Content
数据驱动力:企业数据分析实战
book

数据驱动力:企业数据分析实战

by Carl Anderson
April 2021
Intermediate to advanced
210 pages
6h 3m
Chinese
Posts & Telecom Press
Content preview from 数据驱动力:企业数据分析实战
14
2
本章重点介绍判定数据可靠或不可靠的方法。首先将介绍数据质量的各个方面——干净数
据具备的所有属性。之后将深入探讨数据质量变差的各种原因。后一部分内容会更加详
细,原因如下。第一,影响数据质量的因素有很多,并且不是理论上的因素。只要你对数
据稍事处理,就会碰到很多因素,即使不是大部分因素。这是事实,而且质量问题出现的
频率远比我们想象的高,这就是为什么大多数数据科学家的大部分时间花在清洗数据上。
此外,质量问题的发生概率会随着数据规模的增大而增加。我的前同事
Samer Masry
说:
“在处理大规模数据时,永远要记住,那些极罕见的问题每一秒都有可能发生!”第二,
也可能是更重要的一点,正如我建议的,积极检查和维护数据质量是大家共同的职责。
分析价值链中的每一个人都应该积极参与数据质量的维护。因此,更加深入地理解数据
质量问题及其来源对每个人都有好处,其中有些问题很微妙,可能会给数据源带来严重的
偏差。
下面我们来看看数据质量的意义吧。
2.1
 数据质量的各个方面
数据质量并不是可以简化成单个数字的东西。质量不是数字
5
或者
32
。原因在于,“质量”
这个词涉及诸多方面或维度。所以有不同的质量水平,其中某些问题的严重程度高于另外
一些。不过这些问题的严重程度取决于数据分析的
场景
。因此,假设你拿到了一张有州代
码但大部分邮编缺失的客户地址表格,如果你计划利用邮编而不是州代码来进行分析,这
些缺失的邮编就会成为主要障碍。
具体而言,数据质量涉及很多方面。数据应具备如下特性。
可访问性
分析师能够访问数据。这不仅涉及访问权限问题,也需要有合适的工具使数据可用和可 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Java数据科学实战

Java数据科学实战

Michael R. Brzustowicz, PhD
精通模块化JavaScript

精通模块化JavaScript

Nicolás Bevacqua

Publisher Resources

ISBN: 9787115560179