
|
339
使用更智能的过滤
37.2
区间连接
使用有意排除数据的连接条件可以防止你加载以后需要从数据集中过滤出去的数据。
其中有一种技术,即区间连接,允许你根据使用小于或大于的连接条件,而不是等
于(最常见的连接条件)将两个数据集连接在一起。
第
32
章更详细地介绍了高级连接方案。第
39
章介绍了支撑,它是另一种使
用区间连接来过滤数据的高级连接技术。
在连接过程中采用区间连接,可以避免生成以后将要过滤掉的行,从而减少处理的
数据量,并且消耗更少的计算能力。由于
Prep Builder
主要用于笔记本计算机和台
式计算机上的“普通商业用户”,而这些计算机的处理能力是有限的,所以这是一
个巨大的优势。
37.3
百分比异常
另一种更智能的过滤形式是评估关键度量指标,以确保它们在容忍度范围内。这些
容忍度水平通常取决于业务逻辑和规则。在之前的最小值、最大值或平均值中发现
显著的差异是一个强烈的迹象,这表明数据中的某些东西是错误的,需要解决。
检查百分比异常通常是很好的方法,可以将其放入已手动输入数据、有错别字风险,
或者数据将被重新加载的流程中。让我们依次看一下每种情况。
37.3.1
手动输入:
LOD
计算
因为手动输入很可能在大部分时间内都是没问题的,只有零散的错误,所以你可以
在流程中使用的实际数据集内设置基准值,并测试其中的数值。
随着
Tableau Prep Builder 2020.1.3
中增加了
Level of Detail
(
LOD
,详细程度)计算,
检查百分比异常变得容易多了,因为这些计算为数据集增加了一列新的内容 ...