第 4 章 评估人工智能系统 评估人工智能系统
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
一个模型只有在达到预期目的时才是有用的。您需要根据自己的应用情况对模型进行评估。第 3 章讨论了自动评估的不同方法。本章将讨论如何使用这些方法为您的应用评估模型。
本章包括三个部分。首先讨论您可能用于评估应用程序的标准,以及如何定义和计算这些标准。例如,很多人担心人工智能会捏造事实--如何检测事实的一致性?如何衡量数学、科学、推理和总结等特定领域的能力?
第二部分侧重于模型选择。由于可供选择的基础模型越来越多,要为自己的应用选择合适的模型可能会感到力不从心。为了按照不同的标准评估这些模型,已经推出了数以千计的基准。这些基准可信吗?如何选择使用哪些基准?汇总多个基准的公共排行榜如何?
模型领域充斥着各种专有模型和开源模型。许多团队需要反复考察的一个问题是,是托管自己的模型还是使用模型 API。随着建立在开源模型之上的模型 API 服务的推出,这个问题变得更加微妙。
最后一部分将讨论开发一个评估管道,它可以长期指导您的应用程序的开发。这一部分汇集了我们在全书中学到的评估具体应用的技术。
评估标准
从未部署过的应用程序和已部署但无人知晓其是否有效的应用程序,哪个更糟糕?当我在会议上问到这个问题时,大多数人都说是后者。已部署但无法评估的应用程序更糟糕。它的维护成本很高,但如果你想把它撤下来,成本可能会更高。
不幸的是,人工智能应用程序的投资回报令人怀疑,这种情况很常见。出现这种情况不仅是因为应用程序难以评估,还因为应用程序开发人员无法了解应用程序的使用情况。一家二手车行的 ML 工程师告诉我,他的团队建立了一个模型,根据车主提供的规格来预测汽车的价值。模型部署一年后,他们的用户似乎很喜欢这个功能,但他不知道模型的预测是否准确。在 ChatGPT 热潮兴起之初,各公司纷纷部署客户支持聊天机器人。他们中的许多人仍不确定这些聊天机器人对用户体验是有帮助还是有伤害。
在投入时间、金钱和资源构建应用程序之前,了解如何对该应用程序进行评估非常重要。我称这种方法为评估驱动开发。这个名字的灵感来源于软件工程中的测试驱动开发,指的是在编写代码之前先编写测试的方法。在人工智能工程中,评估驱动开发指的是在构建之前定义评估标准。
因此,一个人工智能应用程序应该从一个特定于该应用程序的评估标准列表开始。一般来说,可以将标准分为以下几类:特定领域能力、生成能力、指令跟踪能力以及成本和延迟。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access