
153
第 8 章
数据清洗:标准化和脚本化
你已经学习了数据的匹配和解析方法,以及如何寻找重复值,你已经开始探索数据清洗的
奇妙世界。随着进一步理解你的数据集和你想要回答的问题,你需要考虑数据标准化和清
洗自动化的问题。
本章我们将探索数据标准化的方法和时机,以及何时将数据清洗脚本化并对脚本进行测
试。如果你管理的数据集是定期更新或新增数据的话,你需要使清洗过程尽可能高效清
楚,这样你就可以将更多时间花在数据分析和撰写报告上。我们首先讲数据集的标准化
(
standardizing
)和归一化(
normalizing
),以及如果数据集没有归一化应该怎么做。
8.1
数据归一化和标准化
数据集的标准化和归一化可能意味着利用当前数据计算新数据,也可能是对特定列或特定
数据进行标准化或归一化,这取决于你的数据和所从事的研究类型。
从统计学的观点来看,归一化通常需要对数据集进行计算,使数据都位于一个特定的范
围。比如说,你可能需要将测验成绩归一化到一定范围,这样你就可以准确查看成绩分
布。你可能还需要对数据做归一化,以便准确查看百分位数,或不同群体(或世代)之间
的百分位数。
假设你想查看某队在给定赛季得分的分布情况。你可能首先会将比赛分为赢、输、平三种
情况。然后再进一步分为赢多少分、输多少分,等等。你还可以按比赛时长和每分钟得分
数来分类。你可以访问所有这些数据集,现在你希望在球队之间进行对比。如果要对数据
归一化,你可能会将总得分归一化到
0-1
区间。离群值(最高得分)将会接近于
1
,较低
得分将会接近于
0
。然后你可以利用新数据的分布情况,查看有多少支球队的得分位于中 ...