第 4 章 幻觉和 RAG 系统 幻觉与 RAG 系统
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在这个时代,LLMs 已经变得无比复杂,它们的产出往往显得如此表述得当、准确和富有洞察力,以至于人们很容易开始隐性地信任它们。最近,我与一位同事讨论了我所熟悉的一个科学课题。我的所有论点都经过了 ChatGPT 的 "双重检查",而 ChatGPT 是根据各种论坛和维基百科的数据训练出来的。LLMs 确实可以生成连贯的叙述,提供详细的解释,甚至模仿人类般的推理。但是,这种信任可能会产生误导。当你继续深入挖掘他们的回答时,你可能会发现偶尔会有不准确或完全捏造的地方。事实上,尽管 LLMs 的能力令人印象深刻,但他们有时会弄乱事实,编造从未发生过的事件,基本上就是幻觉。
幻觉的产生 源于人工智能模型如何根据概率分布对它们的回答进行采样,这在第 2 章中有所介绍,而不是确定性地操作。人类通常会对同一个问题给出一致的答案,而人工智能模型则不同,每次都会根据潜在答案的概率加权产生不同的答案。就其核心而言,语言模型本身并不理解或验证它们生成的信息。它们只是根据大量的训练数据预测序列中的下一个词。对于 LLM 来说,在使用正确的事实还是捏造的事实之间做出选择,本质上与在不同的语法结构或代词之间做出选择是一样的。虽然这一特点使人工智能能够超越常规路径进行探索,从而出色地完成创造性任务,但却给要求事实准确性的应用带来了巨大挑战。
幻觉、其原因和后果
幻觉的后果可能很严重,一家律师事务所在使用 ChatGPT 时没有意识到 ChatGPT 会产生幻觉的倾向,结果因向法庭提交虚构的法律研究报告而被罚款,就证明了这一点。了解产生幻觉的根本原因对于制定有效的缓解策略至关重要,因为仅凭采样过程并不能完全解释为什么模型会产生训练数据中从未见过的内容。
2021 年,DeepMind 的研究人员提出了一个关于幻觉原因的假设,认为语言模型产生幻觉是因为它们无法区分提供给它们的数据和自我生成的内容。一旦模型以一个稍有错误的语句开始,它就会在后续处理中将这些生成的内容视为事实,从而可能导致一连串错误的扩大。这种现象有时被称为 滚雪球式幻觉或 自欺欺人,它可以 导致模型在问题上出错,如果他们没有做出最初的错误假设,他们本来是可以正确回答问题的。
自欺假说提出了两种潜在的缓解技术:使用强化学习帮助模型区分用户提供的提示和模型生成的标记,以及通过监督学习在训练数据中加入事实和反事实信号。这些方法旨在解决一个根本问题,即模型将其输出与外部输入同等对待,从而使最初的错误随着反应的继续而加剧为严重的幻觉。
第二种假设将幻觉归因于模型的内部知识与创建其训练数据的人类标注者的知识之间的不匹配。在 监督微调(SFT)过程中,模型被训练成模仿标注者所写的反应,而标注者可能包含了模型所不具备的知识,这就有效地教会了模型产生幻觉。这种观点认为,理想情况下,标注者应在每个回答中包含他们的知识来源,尽管这在实践中并不可行。
图 4-1显示了一个模型在被要求根据这些提示生成图像时所产生的类似 的视觉幻觉:一个西装革履的男人,背景是一辆黑色的汽车;一个三岁孩子的生日蛋糕;一个装得满满的酒杯,一股红酒正被倒入杯中。这些图像揭示了当前人工智能系统的一个根本局限:它们没有人类意义上的知识。它们拥有从训练数据中得出的模式、相关性和统计关系,但却缺乏以下知识:
- 因果理解
-
理解 事情发生的原因
- 物理直觉
-
掌握 物体在物理世界中的行为方式
- 概念抽象 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access