第10章 更智能 、更出色、更快、更强大:优化LLMs与AI代理
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
正如你在全书中作为《 》所见,Transformer 模型是通才。它们能够生成文本、创作音乐、编写代码,以及生成或分类图像。你已经了解到,端到端强化学习与思维链相结合,可以激发内部推理能力,并帮助模型解决更复杂的问题。你还认识到,将问题分解为子问题,并让语言模型在多智能体系统中协作,可以将其转变为应对挑战性任务的强大工具。
然而,随着任务复杂度的增加,这些能力已显不足。扩展推理、多步骤决策以及生产级可靠性都暴露了模型的薄弱环节。若缺乏优化,即便是规模最大的模型或最先进的智能体系统,也可能在处理复杂的推理链时出现问题,在琐碎问题上浪费计算资源,或在实际部署中无法适应环境。
优化正是缺失的那一环。试想,世界级运动员并非仅凭天赋或常规训练就能成功,他们依赖的是一个包含针对性训练、恢复、营养和心理准备的生态系统。同样地,Transformer模型也不能仅依赖预训练或监督式微调,它们需要强化信号、自适应推理策略、高效的测试时扩展能力,以及强大的系统级基础设施。 在实践中,这意味着要借助训练后框架超越基线模型,这些框架能优化策略和奖励机制,教会模型何时思考、何时行动;在推理阶段扩展计算能力以实现高效搜索;并在生产环境中快速更新权重,使策略在处理实际工作负载的同时持续改进。表 10-1总结了这一优化生态系统。
| 概念 | 组件 | 角色 | 示例 |
|---|---|---|---|
训练时优化 |
ART、GRPO、RULER |
利用强化学习优化推理、工具使用和决策策略 |
使用 RULER 进行相对轨迹排序 |
推理时扩展 |
AdaptThink、搜索方法(如 ETS) |
按难度分配计算资源;决定何时思考与何时行动 |
基于AdaptThink的难度门控CoT |
开放式强化学习框架 |
rLLM、Verl |
分布式推演、训练与评估 |
使用GRPO训练编码代理 |
系统级基础设施 |
检查点引擎 |
将学习器生成的更新权重快速分发至执行器 |
生产环境中的策略刷新 |
以下各节将逐一探讨该优化生态系统的各个组成部分。训练时优化部分展示了ART、GRPO和RULER等强化学习方法如何提升智能体的可靠性。推理时扩展部分涵盖了AdaptThink等策略,这些策略通过判断何时值得进行扩展推理来减少计算资源的浪费。rLLM和verl等开放式强化学习框架则说明了分布式基础设施如何将这些理念付诸实践。而基于Checkpoint Engine的系统级基础设施则展示了策略如何在生产环境中持续高效地改进。
训练时智能: 面向智能体的强化学习
训练时智能( )优化是使Transformer成为更可靠问题解决者的首要手段。预训练和监督微调建立了广泛的能力,但强化学习(RL)提供了针对真实目标来优化行为的反馈循环。强化学习不再依赖于固定的标签或静态数据集,而是动态评估模型的行为:根据预期目标对模型的输出进行评分,然后据此更新权重。
现代框架将这一原理扩展到了简单的偏好学习之外。代理强化训练(ART)围绕工具使用和决策制定来构建 Transformer 的滚动过程。ART是一个开源框架,通过经验训练具有代理能力的 LLMs 以提升其性能和可靠性。它采用 GRPO ,该方法将偏好学习扩展到候选解决方案组,并消除了对绝对分数的需求。相对通用 LLM 诱发奖励(RULER) 是一种通用奖励函数,它利用 LLM 作为评判者来对智能体的轨迹进行排序。该方法无需标注数据、专家监督或人工设计的奖励,且能持续提升智能体的性能。将 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access