
数据分析
|
65
索,通常还能得知需要收集什么其他指标。如果一个分布是幂律形式,就像
Twitter
粉丝数
的分布,你就会知道应该把衰减常数作为重要的特征指标来计算。
当然,并非所有变量都是连续型的,比如性别和产品类别就都是类别型的。因此,描述性
分析要包含不同类别的相对频率表或列联表,如表
5-1
所示。
表 5-1:销售额(按区域统计)
性 别 西 部 南 部 中 部 东 部 汇 总
男性
3485 1393 6371 11 435 22 684
女性
6745 1546 8625 15 721 32 637
合计
10 230 2939 14 996 27 156
55 321
在这个分析层级,关键的是分析师需要理解按照什么指标将数据进行切割和分组,而且能
够识别有意思的信息。比如在表
5-1
中
,为什么女性在西部区域的销售额中所占比例如此
之大?
当需要分析的变量增加到两个时,描述性分析可以使用关联度量,比如计算相关系数或协
方差。
描述性分析的目的是展现样本的关键数字特征,它应该阐明可以概括数据内分布的关键数
字。可以使用关联性指标来描述或显示变量之间的关系,也可以用表格来进行交叉统计。
一些简单的度量或许能带来巨大的价值。有时为了解决客户的某个问题,你可能需要了解
和追踪其订单量的中位数或最长期限。也就是说,它们可能非常有趣,足以驱动一份标准
报表、特定报表、钻取查询或报警(分析层级
1~4
)
,单单这些就能给企业创造价值。它们
还能让分析师对数据质量心中有数而感到从容。如果某个第一人称射击游戏网站的玩家的
年龄最大值是 ...