
82
|
第
3
章
式着眼于如何处理专家意见相左的情况。再平衡(
Rebalancing
)设计模式推荐处理高
度偏斜或不平衡数据的方法。
设计模式
5
:重构
重构设计模式是指改变一个机器学习问题的输出的表示形式。例如,我们可以将一
个直观上看起来是回归的问题作为分类问题来处理(反之亦然)。
问题
构建任何机器学习解决方案的第一步是框定其所涉及的问题。这是一个监督学习问
题吗?还是无监督的?特征是什么?如果是有监督问题,那么它的标签是什么?多
大的误差是可以接受的?当然,这些问题的答案必须结合训练数据、手头的任务以
及成功的标准等实际情况来考虑。
例如,假设我们想构建一个机器学习模型来预测给定地点未来的降雨量。从广义上
讲,这是回归任务还是分类任务?好吧,因为我们试图预测降雨量(例如
0.3
厘米),
将其视为一个时间序列预测问题是有意义的:给定当前和历史的气候以及天气模式,
我们可以估计未来
15
分钟内给定地区的降雨量是多少?此外,因为标签(降雨量)
为一个实数,我们可以构建一个回归模型。当开始开发和训练模型时,我们发现(也
许这并不令人惊讶)天气预报比想象中的难。我们预测的降雨量都是错的,对于同
一组特征,有时降雨
0.3
厘米,有时降雨
0.5
厘米。应该做些什么来改进我们的预测呢?
再给我们的网络添加更多的层?或者引入更多的特征?也许使用更多的数据会有所
帮助?也许需要一个不同的损失函数?
任何这些调整都可能改进我们的模型。但是等一下!回归是我们完成这个任务的唯
一途径吗?也许我们可以通过重构机器学习的目标函数来提高任务性能。