
248
|
第
6
章
在这一章中,我们将着眼于针对可复现性的不同方面的设计模式。变换(
Transform
)
设计模式从模型训练管道中捕获数据相关性并在提供服务时复现它们。可重复拆分
(
Repeatable Splitting
)采用的方式是将数据拆分为训练、验证和测试集来保证训
练过程中使用的训练样本从未在评估或测试时使用,即使数据集在增长。桥接模式
(
Bridged Schema
)设计模式着眼于当训练数据集是符合不同数据规范的混合数据时,
如何确保可复现性。工作流管道(
Workflow Pipeline
)设计模式捕获机器学习中的所
有步骤,确保如果模型被重新训练时,管道的某些部分模块可以重复使用。特征仓
库(
Feature Store
)设计模式解决的是不同机器学习任务中特征的可复现性和可重用
性。窗口推理(
Windowed Inference
)设计模式确保以动态、时间相关的方式计算的
特征可以在训练和服务之间正确地复现。数据和模型的版本控制(
Versioning
)是处
理本章中许多设计模式的先决条件。
设计模式
21
:变换
变换设计模式通过将输入、特征和变换小心地分开,使机器学习模型能更容易投入
生产实践中。
问题
问题是机器学习模型的输入并不是机器学习模型在计算中所使用的特征。例如,在
文本分类模型中,输入是原始文本文档,而特征是此文本的数值型嵌入表示。当我
们训练一个机器学习模型时,我们用从原始输入中提取的特征来训练它。以使用
BigQuery ML
来预测伦敦自行车骑行持续时间的模型训练为例:
CREATE OR REPLACE ...