
|
421
使用历史表
48.2.2
信息的相关性
除非你是一家鞋类零售商,否则存储员工或客户的鞋码对你的分析没有任何帮助。
一方面,保存客户购买的产品以及他们何时加入和离开服务或组织的信息,对了解
消费者行为模式很有用。另一方面,过多的信息会使分析工作更加困难和耗时。因此,
只保留有关联的数据是关键。
48.2.3
更新频率
一方面,对数据集建立历史快照是有用的,但不要太频繁地进行。在许多情况下,
如果你的客户每天都在与你互动,那么每月的视图足以显示行为模式。更新的频率
越高,你会注意到的动向越少。另一方面,如果没有足够的频率来捕捉客户的特征,
则没有数据点来显示客户所持业务的趋势。
48.2.4
粒度级别
每组客户设置一个数据点?每个客户设置一个数据点?你需要决定哪些数据与你希
望进行的分析相关。无论决定什么,可能都需要进一步汇总数据进行分析。只有当
你从更多的粒度到更少的粒度时,这才有可能,因为汇总数据意味着从数据集中删
除细节。当分析一段时间内的业务模式时,想想你可能要做的比较。这个月和去年
同月的对比?这个季度与去年同季度的对比?这个决定将影响你的历史表需要保留
的数据量。
所有这些选择可能会随着时间的推移而改变,但通过建立历史表,你将为自己提供
进行分析的机会,否则你的分析可能无法进行。
48.3
性能
数据的相关性、频率和粒度都会在你构建分析以及应用分析时影响性能。数据软件
处理大型数据集的速度越来越快。但是,对于历史表,保持数据集足够小和简洁,
以便将其连接到可能已经是一个大型数据集的数据集中,这是一个挑战 ...