
13
第 2 章
数据质量
我的时间大约有
80%
花在了清洗数据上。
优质的数据总是胜过优质的模型。
——Thomson Nguyen
数据是数据驱动型组织的基础。
如果缺乏及时、相关和可信赖的数据,那么决策者别无选择,只能凭直觉做决定。数据质
量是关键。
本章中“质量”一词的含义非常广泛,主要从数据分析师的角度来考虑。
分析师需要在正确的时间、正确的地点,通过正确的手段,以正确的形式,获取正确的数
据。(他们的要求不算多。)只要以上任何一点出现错误或缺失,分析师能回答的问题以及
他们能从数据中获得的见解的类型或质量都将受限。
本章和第
3
章将讨论数据质量这一广泛的主题
。本章讨论如何确保数据收集过程的正确
性。此处的“质量”指的是精确、时效性和一致性等。第
3
章将介绍如何确保所收集的数
据是正确的。这里的“质量”意味着选择和提供最佳的数据源,以便增强现有数据,从而
获得更好的见解。简而言之,接下来介绍如何正确地收集数据以及如何收集正确的数据。