第 8 章 部署模型时的注意事项 部署模型时的注意事项
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
前几章介绍了模型训练和泛化性能。这些都是部署模型的必要步骤,但还不足以保证 ML 驱动的产品取得成功。
部署 一个模型需要深入研究可能影响用户的故障模式。在构建从数据中学习的产品时,您应该回答以下几个问题:
-
您使用的数据是如何收集的?
-
您的模型通过学习该数据集做出了哪些假设?
-
这个数据集是否具有足够的代表性,能够产生有用的模型?
-
您的工作成果会被滥用吗?
-
模型的预期用途和范围是什么?
数据伦理领域旨在回答其中的一些问题,所使用的方法也在不断演变。如果您想深入了解,O'Reilly 有一份关于这一主题的综合报告,即 Mike Loukides 等人撰写的《伦理与数据科学》。
在本章中,我们将讨论与数据收集和使用有关的一些问题,以及确保模型对每个人都能保持良好运行所面临的挑战。最后,我们将通过一个实用访谈来介绍将模型预测转化为用户反馈的技巧。
让我们从数据入手,首先讨论所有权问题,然后讨论偏见问题。
数据问题
在 本节中,我们将首先概述在存储、使用和生成数据时应牢记的提示。首先,我们将介绍数据所有权和存储数据的责任。然后,我们将讨论数据集中常见的偏差来源,以及在构建模型时将这些偏差考虑在内的方法。最后,我们将举例说明这些偏差的负面影响,以及为什么要减少这些偏差。
数据所有权
数据所有权 是指与数据收集和使用相关的要求。以下是数据所有权方面需要考虑的几个重要方面:
-
数据收集:您是否获得了收集和使用您要训练模型的数据集的合法授权?
-
数据使用和许可:您是否向用户清楚地解释了为什么需要他们的数据以及如何使用这些数据,他们是否同意?
-
数据存储:如何存储数据、谁能访问数据以及何时删除数据?
收集用户数据有助于个性化和定制产品体验。这也意味着道德和法律责任。虽然安全保管用户提供的数据一直是道德义务,但新法规越来越多地将其规定为法律义务。例如,在欧洲,GDPR 规定对数据收集和处理制定了严格的准则。
对于存储大量数据的组织而言,数据泄露代表着巨大的责任风险。这种漏洞既会削弱用户对组织的信任,也往往会导致法律诉讼。因此,限制所收集的数据量可减少法律风险。
对于 我们的 ML 编辑器,我们将首先使用公开可用的数据集,这些数据集是在征得用户同意后收集的,并存储在网上。如果我们想记录更多数据,例如服务使用情况记录,以便改进服务,我们就必须明确定义数据收集政策,并与用户共享。
除了数据收集和存储,还必须考虑使用收集的数据是否会导致性能低下。数据集在某些情况下适合使用,但在另一些情况下则不适合。让我们来探讨一下原因。
数据偏差
数据集 是特定数据收集决策的结果。这些决定会导致数据集呈现出有偏见的世界观。ML 模型从数据集中学习,因此会重现这些偏差。
例如,假设一个模型是根据历史数据训练出来的,它可以预测一个人成为首席执行官的可能性,预测的依据包括他的性别。从历史上看,根据皮尤研究中心(Pew Research Center)编制的"女性领导者数据"(The Data on Women Leaders)概况介绍,大多数财富 500 强企业的首席执行官都是男性。使用这些数据来训练模型,会让模型了解到男性是预测领导力的重要指标。在所选数据集中,男性和首席执行官是相关的,这是因为社会原因导致女性被考虑担任此类职位的机会较少。如果盲目地在这些数据上训练一个模型并用它来进行预测,我们只会强化过去的偏见。 ...