
移动应用程序的道德、公平和隐私
|
263
一旦你定义并理解了你的问题,并且消除了其中的潜在偏差来源,下一步就是构建和准
备你将在系统中使用的数据。同样,这也是一种可能无意中引入偏见的方式。
AI 中的偏差通常仅归因于用于训练模型的数据。虽然数据通常是主要的嫌疑来
源,但它并不是唯一的嫌疑。偏差可以通过特征工程、迁移学习和无数其他方式
蔓延。你经常会修复你的数据来消除偏见,但不能简单地清理数据并宣布胜利。
在创建系统时请记住这一点。我们将在本章中重点关注数据,因为这是通用工
具可以使用的地方,但同样,请尽量避免偏差仅是通过数据引入的心态!
15.1.2
避免数据中的偏差
并非所有数据偏差都很容易发现。我曾经参加过一次学生竞赛,参赛者使用生成对抗网
络(GAN)进行图像生成,根据面部的上半部来预测下半部的样子。那是在 COVID-19
大流行之前,但日本仍然是流感季节,许多人会戴上口罩来保护自己和他人。
这个想法是看看人们是否可以预测口罩下面的脸。对于这项任务,他们需要访问面部
数据,因此他们使用了带有年龄和性别标签的面部图像 IMDb 数据集(
https://oreil.ly/
wR5Vl
)。那么问题来了,鉴于来源是 IMDb,这个数据集中的绝大多数人脸都不是日本
人。因此,他们的模型在预测我的脸时做得很好,但预测他们自己的就不好了。在没有
足够的数据覆盖率的情况下急于获得 ML 解决方案,学生们产生了一个有偏见的解决方
案。这只是一场展示和讲述比赛,他们的工作非常出色,但这是一个很好的提醒,即在
不一定需要或没有足够的 ...