
负责任的人工智能
|
345
图
7
-
10
:What-If Tool 的 Datapoint editor 选项卡,在这里我们可以看到我们的数据是怎样
通过标签类拆分的,并检查数据集中单个样本的特征。
在数据点编辑器中有许多定制可视化的选项,这样做可以帮助我们理解数据集是如
何被拆分成不同的切片的。如果我们在
Binning|Y-axis
下拉菜单中选择
agency_code
列,则按标签保持相同的颜色编码,该工具现在显示了一个关于我们的数据与担保
每个申请贷款的机构的平衡程度的图表,如图
7-11
所示。假设这
1000
个数据点很好
地表示了我们数据集中的其余的数据,在图
7-11
中显示了一些潜在偏差的实例:
数据表示偏差
HUD
(住房和城市发展部)申请未获批准的比例高于我们的数据中所表示的其他
机构。一个模型很可能学习到这一点,从而更频繁地将通过
HUD
的申请预测为“不
批准”。
数据收集的偏差
我们可能没有足够的来自
FRS
(联邦储备系统)、
OCC
(货币监理署)、
FDIC
(联
邦存款保险公司)或
NCUA
(国家信用合作社管理局)的贷款数据来准确地使用
agency_code
作为我们模型中的一个特征。我们应该确保在我们的数据集中,每
个机构的申请比例反映了现实世界的趋势。例如,如果有相似数量的通过
FRS
和
HUD
的贷款,那么在我们的数据集中,这些机构中的每一个应该有相同数量的样本。