Skip to Main Content
机器学习设计模式
book

机器学习设计模式

by Valliappa Lakshmanan, Sara Robinson, Michael Munn
September 2022
Beginner to intermediate content levelBeginner to intermediate
386 pages
7h 36m
Chinese
Southeast University Press
Content preview from 机器学习设计模式
负责任的人工智能
345
7
-
10
What-If Tool Datapoint editor 选项卡,在这里我们可以看到我们的数据是怎样
通过标签类拆分的,并检查数据集中单个样本的特征。
在数据点编辑器中有许多定制可视化的选项,这样做可以帮助我们理解数据集是如
何被拆分成不同的切片的。如果我们在
Binning|Y-axis
下拉菜单中选择
agency_code
列,则按标签保持相同的颜色编码,该工具现在显示了一个关于我们的数据与担保
每个申请贷款的机构的平衡程度的图表,如图
7-11
所示。假设这
1000
个数据点很好
地表示了我们数据集中的其余的数据,在图
7-11
中显示了一些潜在偏差的实例:
数据表示偏差
HUD
(住房和城市发展部)申请未获批准的比例高于我们的数据中所表示的其他
机构。一个模型很可能学习到这一点,从而更频繁地将通过
HUD
的申请预测为“不
批准”。
数据收集的偏差
我们可能没有足够的来自
FRS
(联邦储备系统)、
OCC
(货币监理署)、
FDIC
(联
邦存款保险公司)或
NCUA
(国家信用合作社管理局)的贷款数据来准确地使用
agency_code
作为我们模型中的一个特征。我们应该确保在我们的数据集中,每
个机构的申请比例反映了现实世界的趋势。例如,如果有相似数量的通过
FRS
HUD
的贷款,那么在我们的数据集中,这些机构中的每一个应该有相同数量的样本。
346
7
7
-
11
:美国抵押贷款数据集的子集,由数据集中的 agency_code 列进行分类。
我们可以在数据的其他列重复这种分析,并使用我们的结论来添加样本并改进我们 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

PyTorch深度学习

PyTorch深度学习

Posts & Telecom Press, Vishnu Subramanian
数据科学原理

数据科学原理

Posts & Telecom Press, Sinan Ozdemir
Rust程序设计

Rust程序设计

Jim Blandy, Jason Orendorff, Leonora F. S. Tindall

Publisher Resources

ISBN: 9787564196776