
121
第 7 章
数据清洗:研究、匹配与格式化
数据清洗并不是最迷人的工作,却是数据处理的重要组成部分。要想成为数据清洗专家,
需要严谨的态度,以及对所研究领域全面系统的知识。学会如何正确地清洗数据并汇总,
可以让你在研究领域中脱颖而出。
Python
的设计很适合数据清洗,它可以创建函数处理相同的规律,减少重复性工作。根据
我们目前所学的代码知识,学会用脚本和代码处理重复性的问题,可以节省数小时的体力
劳动,只需要运行一次脚本就可以完成。
本章我们将学习如何用
Python
清洗数据和格式化数据。我们还会用
Python
寻找数据集中
的重复数据和错误。在下一章里我们会继续学习数据清洗,特别是清洗过程自动化和清洗
后的数据存储。
7.1
为什么要清洗数据
对于你获取的数据,有些可能格式良好,方便使用。如果真是这样的话,那你很幸运!大
部分数据即使清洗过,也会有格式不一致和可读性的问题,例如首字母缩写或描述性标题
不匹配,特别是数据来自多个数据集。除非你在数据格式化和标准化上花点工夫,否则数
据不可能正确合并,也就没有用处了。
清洗数据可以让数据更容易存储、搜索和复用。我们在第
6
章中学过,先清
洗数据,再把数据保存到适当的模型中会容易得多。想象一个数据集中有很
多列(或字段),应该保存成特定的数据类型,比如日期、号码或电子邮件
地址。如果你能将预期格式标准化,清洗或删除不合格的数据,就可以保证
数据的一致性,在以后需要查询数据集时也不用做大量工作。