Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

新闻报道新闻报道
0

旧金山 – 在人工智能领域,如何让大型语言模型(LLM)智能体在复杂、多轮决策任务中实现最佳性能,一直是研究人员关注的焦点。近日,Meta FAIR(Fundamental AI Research)与加利福尼亚大学伯克利分校的研究团队合作,在这一领域取得了重大突破,他们共同开发了一种新型强化学习(RL)算法——SWEET-RL(RL with Step-WisE Evaluation from Training-Time Information),并为此构建了一个新的基准测试平台ColBench(Collaborative Agent Benchmark)。

这项研究由伯克利AI研究所(BAIR)二年级博士生周逸飞(Yifei Zhou)主导,并有多位著名AI研究者参与其中,包括Meta FAIR的田渊栋、Jason Weston和加利福尼亚大学伯克利分校的Sergey Levine。该研究成果以论文形式发表,并已开源代码,为该领域的研究人员提供了宝贵的资源。

论文地址:https://arxiv.org/pdf/2503.15478

代码地址:https://github.com/facebookresearch/sweet_rl

多轮决策任务的挑战与现有方法的局限

现实世界中的许多任务都需要智能体执行一系列的决策才能完成。要让智能体在这些任务上表现出色,通常需要直接优化多轮相关的目标,例如成功率。然而,与模仿每一轮中最可能的动作相比,直接优化多轮目标的难度要大得多。

目前,常用的方法包括:

  • 单轮RLHF算法 (RAFT, DPO, PPO): 这些算法不会在不同轮次间执行显式的credit分配,因此在复杂顺序决策任务中,可能会出现高方差和较差的样本复杂性等问题。
  • 价值函数学习方法 (TD学习): 这需要在LLM表征的基础上训练一个新的特定于任务的价值头,这可能无法在有限的微调数据下很好地泛化。

因此,哪种多轮RL算法最有效,能够充分利用LLM的推理能力来训练通用、有能力和目标导向的智能体,仍然是一个悬而未决的问题。

ColBench:一个新的协作智能体基准

为了解决为LLM智能体开发多轮RL算法的挑战,Meta FAIR和伯克利大学的研究团队构建了一个新的基准测试平台ColBench。该基准的设计遵循以下原则:

  • 任务复杂性: 任务应具有足够的复杂性,可以挑战智能体的推理和泛化能力。
  • 低开销: 尽可能地降低开销,以支持快速研究原型设计。
  • 任务多样性: 应该有足够的任务多样性,以便在RL训练时不会过拟合。

ColBench目前包含两个任务:

  • 后端编程协作: 智能体需要与人类模拟器协作编写自定义Python函数。智能体需要推理并决定需要人类模拟器提供哪些具体说明。人类模拟器根据只有它们自己可见的参考代码,用自然语言对每个需要说明的问题提供简要解释,但不会编写代码。
  • 前端设计协作: 智能体需要与人类模拟器协作,通过编写HTML代码片段来设计网页。智能体可以对比来自智能体的网页和参考网页,然后人类模拟器向智能体描述它们的差异。

SWEET-RL:一种新型强化学习算法

SWEET-RL是一种两阶段训练方法。

  • 第一阶段:学习各个轮次的优势函数

为了在推理密集型任务中执行显式credit分配,该团队提出直接学习每个轮次动作的优势函数。考虑到偏好优化已经在LLM微调方面得到成功应用,因此该团队提出根据轨迹的偏好对来训练每轮次优势函数。给定同一任务的两条轨迹,并附加训练时间信息,根据它们的累积奖励将它们标记为选取和拒绝。

SWEET-RL的优势与未来展望

SWEET-RL算法的提出,为解决LLM智能体在多轮决策任务中的挑战提供了一个新的思路。通过直接学习每个轮次动作的优势函数,SWEET-RL能够更有效地利用LLM的推理和泛化能力,从而提高智能体的性能。

ColBench基准的发布,为研究人员提供了一个统一的测试平台,可以更方便地比较不同算法的性能,并促进该领域的发展。

随着人工智能技术的不断发展,我们有理由相信,未来将会有更多更有效的算法被开发出来,从而让LLM智能体在各种复杂任务中发挥更大的作用。

参考文献

  • Zhou, Y., et al. (2025). SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks. arXiv preprint arXiv:2503.15478.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注