
124
|
第
3
章
•
涨幅超过
5%
的股票——买入
•
跌幅超过
5%
的股票——卖出
•
其余的股票属于中立类
我们现在可以不用训练一个回归模型来判断股票会涨多少,而是用这三个类别训练
一个分类模型,然后从该模型中选择置信度最高的预测即可。
设计模式
10
:再平衡
再平衡设计模式提供了处理固有不平衡数据集的各种方法。这里的不平衡指的是数
据集中的大部分样本都具有同一个标签,而其余的较少样本则具有其他标签。
这个设计模式不能解决数据集缺乏针对特定场景和现实环境的表示的情况。这种情
况通常只能通过收集额外的数据来解决。再平衡设计模式主要解决数据集中存在一
个或几个类别具有较少样本的情况下的模型构建问题。
问题
机器学习模型在数据集中每个标签类别的样本数量相近的情况下的学习效果最好。
然而,许多现实世界中的问题却并非如此均衡。以欺诈检测为例,构建一个识别欺
诈信用卡交易的模型。欺诈交易比常规交易要罕见得多,因此,用于训练模型的欺
诈案例数据也较少。对于其他问题情况也是一样的,如检测某人是否会拖欠贷款、
识别出有缺陷的产品、根据医疗图像预测是否有疾病、过滤垃圾邮件、在应用软件
中标记错误日志等。
不平衡数据集适用于许多类型的模型,包括二元分类、多类别分类、多标签分类和
回归。在回归情况下,不平衡数据集指的是具有离群值的数据集,这些离群值远高
于或远低于数据集中的中位数。
训练带有不平衡标签的模型的一个常见问题是依赖于具有误导性的准确率指标来评
估模型。如果我们训练一个欺诈检测模型并且数据集中只有
5%
的数据包含欺诈交易,
那么我们的模型在不修改数据集或底层模型架构的情况下就有可能训练到 ...