
232
|
第
26
章
26.2
为什么使用分组
分组是你需要学习的技术,原因是多方面的。
26.2.1
提高准确率
当听到
Data
(数据)这个词时,大多数人似乎想到的是系统生成的数据被输入数据库。
经过一年的数据分析,大多数数据工作者都会认为自己是幸运的,可以和这样的数
据打交道
!
人们使用的大部分数据源仍然是人工编制的。即使是领先的股票研究机
构,也是通过人工输入
PDF
中的企业业绩来建立所要分析的数据源。问题就在于此。
手工输入数据会增加打错字母或数字的风险。再加上现代社会任务期限驱动的文化
氛围,你看到的可能是一个非常混乱的数据集。如果你没有投资于自动生成的数据,
你可能也没有一个资源丰富的
IT
团队来清理这些错误。幸运的是,分组可以让你把
不正确和正确的值组合在一起,形成一个完全正确的数据集。
26.2.2
数据层次结构导向
在你从事的数据相关的工作中很可能听到过“钻研数据”这种说法。这是指从数据
的高层次(粒度较小)视图开始,逐渐关注低层次(粒度较大)的视图,通常是通
过过滤掉不感兴趣的内容,以保持数据集的可管理性。像
Tableau
这样的工具中的
层次结构允许你对数据这样“向下钻”,但层次结构并不总是存在于数据中。你可
以通过使用组来缓解这种情况,在你的数据集中的现有数据字段之间建立更高的或
中间的层次。常见的层次结构可能包括:
•
时间(年、月、周、日等)。
•
地理(国家、州、城市等)。
•
组织(办公室、部门、团队等)。
•
操作流程(呼叫中心、团队、产品)。
组可以用来将低级实体拉到一起,创建一个新的更高级别的实体 ...