
可复现设计模式
|
281
至此,训练数据集包含了平均延误作为额外的新特征:
行
arrival_delay departure_delay departure_airport hour_of_day avg_depart_delay
1 -3.0 -7.0 LFT 8 -4.0
2 56.0 50.0 LFT 8 41.0
3 -14.0 -9.0 LFT 8 5.0
4 -3.0 0.0 LFT 8 -2.0
但是,在推理期间,我们将需要一个流式管道来计算这个平均出发延误的值,以便
将其提供给模型。为了限制训练-服务偏斜,最好在流的滚动窗口函数中使用相同
的
SQL
,而不是尝试将
SQL
转换为
Scala
、
Python
或
Java
。
批处理预测请求
另一个即使模型是无状态的,我们也可能想要使用窗口推理的场景是模型部署在云
上,但客户端是嵌入到设备中或本地部署的。在这种情况下,向云端部署的模型逐
个发送推理请求的网络延迟可能非常大。在这个情况下,可以使用第
5
章介绍的两
阶段预测设计模式,第一阶段使用管道收集大量请求,第二阶段将请求批量发送给
服务。
这只适用于容忍延迟的用例。如果我们收集的输入实例延迟超过
5
分钟,那么客户
端将不得不容忍长达
5
分钟的延迟才能得到预测。
设计模式
25
:工作流管道
在工作流管道设计模式中,我们通过容器化和编排机器学习过程中的步骤来实现端
到端的可复现的管道。容器化可以显式完成,或者使用一个简化过程的框架。
问题
个人数据科学家可以运行数据预处理、训练并从一个单一的脚本或记事本来按部就 ...