
350
|
第
7
章
•
对于由
HUD
监管的贷款,我们的模型的准确率明显高于原来的
85%
,达到了
94%
。
•
根据混淆矩阵,非
HUD
贷款以更高比例——
72%
获批,而非
55%
。这可能是由
于在上一节确定的数据表示偏差
(
我们故意让数据集这样以显示模型如何放大数
据偏差
)
。
如图
7-14
中的
Optimization strategy(
优化策略
)
所示,有几种方法可以实现这些思路。
这些优化方法涉及改变我们模型的分类阈值——模型输出正分类的阈值。在这个模
型上下文中,我们可以用什么样的置信度阈值来将一个申请标记为“批准”。如果
我们的模型有超过
60%
的置信度预测申请应该被批准,那么我们应该批准吗?或者
只有当我们的模型的置信度超过
98%
时我们才批准申请?这个决定很大程度上依赖
于模型的上下文和预测任务。如果我们在预测一个图像中是否包含猫,即使我们的
模型只有
60%
的置信度,我们也可以返回“猫”标签。但是,如果我们有一个模型
来预测一个医学图像中是否包含一种疾病,我们可能希望阈值取得更高。
What-If Tool
帮助我们根据各种优化方法选择一个阈值。例如,对
Demographic
parity
(人口均等)进行优化可以确保我们的模型将相同比例的
HUD
贷款申请和非
HUD
贷款申请预测为“批准”
注
11
。另外,使用机会平等
注
12
公平性指标将确保来自
测试数据集中真值为“批准”的
HUD
和非
HUD
切片的数据点有同等的机会被模型
预测为“批准”。
请注意,改变模型的预测阈值只是实现公平性评估指标的一种方法。还有许多其他
方法,包括重新平衡训练数据、重新训练模型以优化不同的指标等。 ...