
318
|
第
35
章
让我们重温一下第
3
章中所涉及的一些步骤,以及它们是如何适用于这个挑战的。
1
.
绘制出你的输入。每个输入包含什么?数据中有哪些维度和度量?是否有任何
数据字段的格式不正确?数据的粒度是什么水平?
•
在这个例子中,似乎只有
Date
(日期)字段有可能需要被清理。
2
.
绘制出你的输出文件。需要多少个输出文件?你需要的那些字段是什么格式?
想想所需数据的粒度。
•
在这个例子中,每个团队在输出中会有一行。这意味着将需要大量的汇总,
以将比赛结果带到我们需要的详细程度。
3
.
了解差距。数据内缺少哪些字段,我们如何添加它们?这将为我们提供一个字
段列表,我们需要通过转换、连接或计算来创建这些字段。
在这个阶段,你不需要解决加载输入数据和生成输出数据集进行分析之间可能出现
的所有问题。正如第
3
章中所讨论的那样,可能不会在此时发现数据集中的所有问题,
但随着对数据的处理,这些问题将会出现。
35.3
逻辑步骤
将挑战分解成一个个的小块,可以让你更容易地找出最佳的解决方法。如果跳过这
一步,这个挑战可能看起来难以克服。创建所需要的计算是一个很好的开端,因为
它们将有助于:
•
引导至下一步以找到解决方案。
•
确定开展工作的顺序。
在这个挑战中,我们以胜利为例。已有独立的比赛结果,需要确定谁是赢家。但这
说起来容易做起来难,因为每一场胜利都意味着有一场失败。这意味着每场比赛都
需要两行:一行用来记录赢家,另一行用来记录输家。为了确保我们捕捉到每支球
队的比赛,首先我们将使用
Team List
(团队列表)数据源