旧金山 – 在人工智能领域,如何让大型语言模型(LLM)智能体在复杂、多轮决策任务中实现最佳性能,一直是研究人员关注的焦点。近日,Meta FAIR(Fundamental AI Research)与加利福尼亚大学伯克利分校的研究团队合作,在这一领域取得了重大突破,他们共同开发了一种新型强化学习(RL)算法——SWEET-RL(RL with Step-WisE Evaluation from Training-Time Information),并为此构建了一个新的基准测试平台ColBench(Collaborative Agent Benchmark)。
这项研究由伯克利AI研究所(BAIR)二年级博士生周逸飞(Yifei Zhou)主导,并有多位著名AI研究者参与其中,包括Meta FAIR的田渊栋、Jason Weston和加利福尼亚大学伯克利分校的Sergey Levine。该研究成果以论文形式发表,并已开源代码,为该领域的研究人员提供了宝贵的资源。
论文地址:https://arxiv.org/pdf/2503.15478
代码地址:https://github.com/facebookresearch/sweet_rl
多轮决策任务的挑战与现有方法的局限
现实世界中的许多任务都需要智能体执行一系列的决策才能完成。要让智能体在这些任务上表现出色,通常需要直接优化多轮相关的目标,例如成功率。然而,与模仿每一轮中最可能的动作相比,直接优化多轮目标的难度要大得多。
目前,常用的方法包括:
- 单轮RLHF算法 (RAFT, DPO, PPO): 这些算法不会在不同轮次间执行显式的credit分配,因此在复杂顺序决策任务中,可能会出现高方差和较差的样本复杂性等问题。
- 价值函数学习方法 (TD学习): 这需要在LLM表征的基础上训练一个新的特定于任务的价值头,这可能无法在有限的微调数据下很好地泛化。
因此,哪种多轮RL算法最有效,能够充分利用LLM的推理能力来训练通用、有能力和目标导向的智能体,仍然是一个悬而未决的问题。
ColBench:一个新的协作智能体基准
为了解决为LLM智能体开发多轮RL算法的挑战,Meta FAIR和伯克利大学的研究团队构建了一个新的基准测试平台ColBench。该基准的设计遵循以下原则:
- 任务复杂性: 任务应具有足够的复杂性,可以挑战智能体的推理和泛化能力。
- 低开销: 尽可能地降低开销,以支持快速研究原型设计。
- 任务多样性: 应该有足够的任务多样性,以便在RL训练时不会过拟合。
ColBench目前包含两个任务:
- 后端编程协作: 智能体需要与人类模拟器协作编写自定义Python函数。智能体需要推理并决定需要人类模拟器提供哪些具体说明。人类模拟器根据只有它们自己可见的参考代码,用自然语言对每个需要说明的问题提供简要解释,但不会编写代码。
- 前端设计协作: 智能体需要与人类模拟器协作,通过编写HTML代码片段来设计网页。智能体可以对比来自智能体的网页和参考网页,然后人类模拟器向智能体描述它们的差异。
SWEET-RL:一种新型强化学习算法
SWEET-RL是一种两阶段训练方法。
- 第一阶段:学习各个轮次的优势函数
为了在推理密集型任务中执行显式credit分配,该团队提出直接学习每个轮次动作的优势函数。考虑到偏好优化已经在LLM微调方面得到成功应用,因此该团队提出根据轨迹的偏好对来训练每轮次优势函数。给定同一任务的两条轨迹,并附加训练时间信息,根据它们的累积奖励将它们标记为选取和拒绝。
SWEET-RL的优势与未来展望
SWEET-RL算法的提出,为解决LLM智能体在多轮决策任务中的挑战提供了一个新的思路。通过直接学习每个轮次动作的优势函数,SWEET-RL能够更有效地利用LLM的推理和泛化能力,从而提高智能体的性能。
ColBench基准的发布,为研究人员提供了一个统一的测试平台,可以更方便地比较不同算法的性能,并促进该领域的发展。
随着人工智能技术的不断发展,我们有理由相信,未来将会有更多更有效的算法被开发出来,从而让LLM智能体在各种复杂任务中发挥更大的作用。
参考文献
- Zhou, Y., et al. (2025). SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks. arXiv preprint arXiv:2503.15478.
Views: 0