第 3 章 表格式数据的可解释性 表格数据的可解释性
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
Deep Learning 的成功大多集中在图像、文本、音频和视频等非结构化数据上;然而,生产中的绝大多数机器学习模型都是以表格数据为基础构建的。想想关系数据库和电子表格中包含的由数字和分类特征集组成的所有数据吧。这些都是结构化数据的例子,构成了现实世界中绝大多数的人工智能用例。在本章中,我们将研究在处理表格数据时最常用的可解释性技术,如夏普利值、排列特征重要性、树状解释器和各种版本的部分依赖图。
排列特征重要性
以下是您需要了解的有关排列特征重要性的内容:
-
一旦将模型拟合到训练 数据中,单个特征的置换重要度就会衡量该特征值被随机洗牌时模型得分的下降幅度。
-
如果对某一特征的值进行调整,就会破坏模型利用该特征进行有意义预测的能力。如果模型的预测结果大打折扣,模型得分也大不如前,那么该特征所提供的信息对模型的预测结果肯定很重要。另一方面,如果模型得分的变化可以忽略不计,那么该特征就不那么重要了。
| 优点 | 缺点 |
|---|---|
|
|
置换特征重要性是一种基于扰动的特征归因技术,常用于表格数据集(有关特征归因和扰动技术的讨论,请参见第 2 章)。常见的模式是以某种方式扰动或修改模型特征,然后根据这些新示例进行预测。使用来自这些新的扰动示例集合的模型预测结果,您就可以通过查看模型预测结果的变化来确定每个特征对预测结果的影响。
例如,对于置换特征重要性,一旦模型与训练数据拟合,就可以通过测量验证集中给定特征值置换后的预测误差来确定特征的重要性。如果对给定特征的值进行洗牌,就会破坏模型利用该特征进行有意义预测的能力。
在测量验证误差的变化时,如果误差的减小可以忽略不计,那么说明该特征提供的信息对于确定模型预测结果并不重要,也没有什么用处。也就是说,没有该特征,你的模型仍然可以做得很好。反之,如果模型的预测结果受到影响,验证误差大为恶化,那么该特征所提供的信息对模型的预测结果肯定非常重要。
总之,变异特征模型的重要性是指单一特征值随机变异时模型得分的减少。它对非线性或难以解释的模型特别有帮助,因为它只依赖于一个拟合估计器,而且模型得分可以是任何有意义的评价指标,如均方误差或 或分类模型的准确率。因此,使用第 2 章中讨论的分类法,置换特征重要性是一种事后、全局、与模型无关的可解释性技术。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access