
问题表示设计模式
|
101
支持向量机(
SVM
)。它对罕见的类别也有帮助,因为该模型每次只对每个输入执
行一个分类任务,从而可以应用再平衡设计模式。该方法的缺点是训练多个不同分
类器增加了复杂度,要求我们在应用时从所有这些模型中获取预测结果,而不是只
有一个模型。
总之,当你的数据属于以下任何一种分类场景时,请使用多标签设计模式:
•
单个训练样本可以与互斥的标签相关联;
•
单个训练样本可以有多级标签;
•
标记者以不同的方式描述同一样本,而且每种描述都是准确的。
在实现多标签模型时,确保重叠标签的组合在数据集中得到了很好的表示,并为模
型中每个可能的标签选择合适的阈值。使用
sigmoid
输出层是构建能处理多标签分类
的模型的最常见方法。此外,
sigmoid
输出也可以应用于每个样本只能在两个可能标
签中选择一个的二元分类任务。
设计模式
7
:集成
集成设计模式指的是组合多个机器学习模型并将它们的结果聚合起来做出预测的机
器学习技术。集成是提高性能并产生优于单个模型的预测结果的有效手段。
问题
假设我们已经训练了婴儿体重预测模型,实施了特征工程,并向神经网络中添加了
额外的层,因此我们的训练集上的误差接近于零。你说,优秀!然而,当想要在医
院产科使用我们的模型或在独立的测试集上评估其性能时,预测结果总是错误的。
发生了什么?更重要的是,我们该如何修正它呢?
没有一个机器学习模型是完美的。为了更好地理解我们的模型在何时何处会犯错误,
我们将机器学习模型错误分为三个部分:不可约误差、由偏差引起的误差和由方差
引起的误差。不可约误差是由数据集中的噪声、模型构建或错误的训练样本所导致 ...