
140
|
第
7
章
在对数据集的后续处理过程中,你还会发现数据类型的离群值或
NA
回答。
处理这些不一致数据的最佳做法取决于你对该话题和数据集的熟悉程度,也
取决于你想要回答的问题。如果你要合并数据集,有时你可以舍弃那些离群
值和不良数据,但注意不要忽视微小的趋势。
现在我们已经初步找出了数据集中的离群值及其规律,下面我们继续清除另一种不良数
据——重复值,即使是我们自己也可能会创建重复值。
7.2.4
找出重复值
如果你要处理的是同一调查数据的多个数据集,或者是可能包含重复值的原始数据,删除
重复数据是确保数据准确可用的重要步骤。如果你的数据集有唯一标识符,你可以利用这
些
ID
,确保没有误插入重复数据或获取重复数据。如果你的数据集没有索引,你可能需要
找到判断数据唯一性的好方法(例如创建一个可索引的键)。
Python
内置库中有几个判断数据唯一性的好方法。我们首先介绍一些概念:
list_with_dupes = [1, 5, 6, 2, 5, 6, 8, 3, 8, 3, 3, 7, 9]
set_without_dupes = set(list_with_dupes)
print
set_without_dupes
输出应该是这样的:
{1, 5, 6, 2, 6, 3, 6, 7, 3, 7, 9,}
这里发生了什么?集合(
set
)和
frozenset
都是
Python
的内置类型,输入一个可迭代对象
(比如列表、字符串或元组),返回一个包含唯一值的集合。
要使用集合和
frozenset
,输入的值需要是 ...