
|
105
数据集采样
即可更新关键数据源的日子早已一去不复返。现代媒体服务和数字平台的用户创造
数据的速度意味着数据准备可能是一个持续进行的任务。通过使用这些数据的样本,
可以避免许多试图一直使用所有数据的坑。为样本创建了逻辑之后,随着更多的数
据涌入,可以通过简单地删除用于样本的限制,将同样的逻辑应用到实时数据流中。
12.3
需要采样的其他理由
在数据准备的其他方面,采样也被证明是有益的。
12.3.1
缩短建设时间
和许多其他人一样,我的早期职业生涯是在大公司工作。虽然这些经历可以带来很
好的机会,但也会因为缓慢的计算机、服务器以及它们之间的连接而产生过严重的
挫折感。在某个机构中,我使用了两台计算机,这样一台计算机可以运行数据查询,
而我在另一台计算机上建立下一组查询。我对咖啡的热爱来自同时在两台机器上运
行数据查询时,期间喝咖啡可以用来打发我的时间。使用样本数据来设置数据结构
和分析是让我保持高交付速度和低咖啡因水平的关键所在。
当我把查询结构化、连接检查好、相关过滤器配置到位后,我仍然要等待完整的数
据集运行,但我这样做是有信心的,因为我已经做了我能做的一切,只需运行一次。
12.3.2
确定你需要什么
当你实际上不知道自己需要什么的时候,数据采样也很方便。在第
2
章中,我曾建
议你勾画出需要什么来完成你的数据分析。然而,有时候,迭代这种需求的唯一方
法是尝试开始形成这种分析。随着人们的学习并提出后续问题,数据准备的多次迭
代和数据分析的多次迭代同样被需要。数据的样本可以让你感受到你可能要做的额
外变化。只有在你必须一次又一次地做的情况下 ...