
192
|
第
4
章
图
4
-
24
:将超参数调优视为一个外层优化循环。
非线性优化
需要调优的超参数分为两类:与模型架构有关的和与模型训练有关的。模型架构超
参数,例如模型的层数或每层的神经元数,控制着机器学习模型的基础数学功能。
与模型训练相关的参数,例如轮次数、学习率和批次大小,控制训练循环,通常还
与梯度下降优化器的工作方式有关。考虑到这两种类型的参数,很明显,整体模型
函数对这些超参数通常不可微。
内层训练循环是可微的,并且可以通过随机梯度下降来搜索最优参数。通过随机梯
度训练机器学习模型的单个步骤可能只需要几毫秒。而针对超参数调优问题的单个
试验涉及在训练数据集上训练一个完整的模型,可能需要几个小时。此外,必须采
用适用于不可微问题的非线性优化方法来解决超参数优化问题。
一旦决定使用非线性优化方法,度量指标的选择就可以更加广泛。该指标将在验证
数据集上进行评估,并且不一定要与训练损失相同。对于分类模型,优化指标可能
是准确率,因此,即使损失是二元交叉熵,你也希望找到能带来最高准确率的超参
数组合。对于回归模型,即使损失为平方误差,你也可能希望优化中值绝对误差。