
272
|
第
6
章
对于类别值——例如,如果旧数据将位置存储为州或省代码,而新数据提供的是县
或区代码——则如主要解决方案所述的那样,使用县在州内的频率分布来进行静态
数据插补。
设计模式
24
:窗口推理
窗口推理设计模式处理需要在持续的序列样本上才能进行推理的模型。该模式通过
外部化模型的状态并从流分析管道调用模型来工作。这个模式在机器学习模型需要
通过时间窗口的聚合来计算一些必要的特征时也很有用。通过将模型状态外部化到
流管道,窗口推理设计模式确保特征在训练和服务之间以一种动态的、时间依赖的
方式正确地重复。对时间聚合特征来说,这是一种避免训练-服务偏斜的方法。
问题
看看达拉斯沃斯堡(
DFW
)机场在
2010
年
5
月的几天中到达航班的延误情况,如图
6-5
所示(详见
Github
上的
Jupyter notebook
,
https://github.com/GoogleCloudPlatform/
ml-design-patterns/blob/master/06_reproducibility/stateful_stream.ipynb
)。
图
6
-
5
:
2010
年
5
月
10
日至
11
日,达拉斯沃斯堡机场到达航班的延误情况。不正常的到达
延误用一个点标记。
到达延误表现出相当大的变化性,但仍然可以注意到异常大的到达延误(用一个点
标记)。请注意,“不寻常”的定义因上下文的不同而异。在一天的清晨(图
6-5
左
下角),大部分航班都是准点的,所以即使是小的起伏也是异常的。到了中午(
5
月
10
日的中午
12
点以后),起伏增加了,延误