
数据清洗:研究、匹配与格式化
|
131
(['TN12_3', 'Person 3 who slept under net',
'Who slept under this mosquito net last night?'], 'NA'),
(['TN12_4', 'Person 4 who slept under net',
'Who slept under this mosquito net last night?'], 'NA'),
(['HH6', 'Area', ''], 'Urban'),
(['HH7', 'Region', ''], 'Bulawayo'),
(['MWDOI', 'Date of interview women (CMC)', ''], '1372'),
(['MWDOB', 'Date of birth of woman (CMC)', ''], '1013'),
(['MWAGE', 'Age', ''], '25-29'),
看起来匹配得很好。我们可以写出更加清晰的代码,但我们已经找到一个好方法,可以保
存绝大部分数据并将数据与标题合并在一起,而且速度还很快。
关于你需要的数据完整性,以及在你的项目中需要为数据清洗花费多少精
力,你总是需要作出评估。如果你只用其中一部分数据,可能就不需要保存
所有数据。如果数据集是你的主要研究来源,那么值得你花费时间和精力来
保证数据完整性。
本节我们学习了一些新的工具和方法,可以发现错误或需要清洗的数据,并结合我们学 ...