Skip to Content
可解释人工智能实践指南
book

可解释人工智能实践指南

by Michael Munn, David Pitman
May 2025
Intermediate to advanced
278 pages
3h 31m
Chinese
O'Reilly Media, Inc.
Content preview from 可解释人工智能实践指南

第 3 章 表格式数据的可解释性 表格数据的可解释性

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

Deep Learning 的成功大多集中在图像、文本、音频和视频等非结构化数据上;然而,生产中的绝大多数机器学习模型都是以表格数据为基础构建的。想想关系数据库和电子表格中包含的由数字和分类特征集组成的所有数据吧。这些都是结构化数据的例子,构成了现实世界中绝大多数的人工智能用例。在本章中,我们将研究在处理表格数据时最常用的可解释性技术,如夏普利值、排列特征重要性、树状解释器和各种版本的部分依赖图。

排列特征重要性

以下是您需要了解的有关排列特征重要性的内容:

  • 一旦将模型拟合到训练 数据中,单个特征的置换重要度就会衡量该特征值被随机洗牌时模型得分的下降幅度。

  • 如果对某一特征的值进行调整,就会破坏模型利用该特征进行有意义预测的能力。如果模型的预测结果大打折扣,模型得分也大不如前,那么该特征所提供的信息对模型的预测结果肯定很重要。另一方面,如果模型得分的变化可以忽略不计,那么该特征就不那么重要了。

优点 缺点
  • 易于实现。Scikit-learn 提供了一个漂亮、易用的库,用于计算排列特征重要性。

  • 结果很直观。排列特征重要性的方法易于解释和理解。

  • 基于置换的方法同样适用于混合模式的表格数据(如数字和分类特征)。

  • 当特征高度相关时,结果可能会产生误导。这种方法有一个基本假设,即特征是独立的。

  • 排列导入值的结果并不反映特征本身的内在预测价值,而是反映特征对于特定模型的重要程度。

  • 排列导数的计算在很大程度上取决于特征洗牌,不同的洗牌可能会产生不同的结果。要获得更准确的结果,可能需要多次运行。

置换特征重要性是一种基于扰动的特征归因技术,常用于表格数据集(有关特征归因和扰动技术的讨论,请参见第 2 章)。常见的模式是以某种方式扰动或修改模型特征,然后根据这些新示例进行预测。使用来自这些新的扰动示例集合的模型预测结果,您就可以通过查看模型预测结果的变化来确定每个特征对预测结果的影响。

例如,对于置换特征重要性,一旦模型与训练数据拟合,就可以通过测量验证集中给定特征值置换后的预测误差来确定特征的重要性。如果对给定特征的值进行洗牌,就会破坏模型利用该特征进行有意义预测的能力。

在测量验证误差的变化时,如果误差的减小可以忽略不计,那么说明该特征提供的信息对于确定模型预测结果并不重要,也没有什么用处。也就是说,没有该特征,你的模型仍然可以做得很好。反之,如果模型的预测结果受到影响,验证误差大为恶化,那么该特征所提供的信息对模型的预测结果肯定非常重要。

总之,变异特征模型的重要性是指单一特征值随机变异时模型得分的减少。它对非线性或难以解释的模型特别有帮助,因为它只依赖于一个拟合估计器,而且模型得分可以是任何有意义的评价指标,如均方误差或 R 2 或分类模型的准确率。因此,使用第 2 章中讨论的分类法,置换特征重要性是一种事后、全局、与模型无关的可解释性技术。

从零开始的排列特征重要性

让我们以一个例子来说明排列特征的重要性。我们将使用加州住房数据集1该数据集收集自 1990 年美国人口普查,每一行代表一个普查街区组(每个街区组通常有 600 到 3000 人)。每个示例包含八个特征属性,如每个家庭的平均卧室数或街区居民的收入中位数。该数据集的目标标签是MedianHouseVal ,即每个街区内房屋的中位价值,单位为数十万美元。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

生成式人工智能可视化

生成式人工智能可视化

Priyanka Vergadia, Valliappa Lakshmanan
超越Vibe编程

超越Vibe编程

Addy Osmani

Publisher Resources

ISBN: 9798341659445