田渊栋、Levine联手，RL强化LLM，AI进化！

旧金山 – 在人工智能领域，如何让大型语言模型（LLM）智能体在复杂、多轮决策任务中实现最佳性能，一直是研究人员关注的焦点。近日，Meta FAIR（Fundamental AI Research）与加利福尼亚大学伯克利分校的研究团队合作，在这一领域取得了重大突破，他们共同开发了一种新型强化学习（RL）算法——SWEET-RL（RL with Step-WisE Evaluation from Training-Time Information），并为此构建了一个新的基准测试平台ColBench（Collaborative Agent Benchmark）。

这项研究由伯克利AI研究所（BAIR）二年级博士生周逸飞（Yifei Zhou）主导，并有多位著名AI研究者参与其中，包括Meta FAIR的田渊栋、Jason Weston和加利福尼亚大学伯克利分校的Sergey Levine。该研究成果以论文形式发表，并已开源代码，为该领域的研究人员提供了宝贵的资源。

论文地址：https://arxiv.org/pdf/2503.15478

代码地址：https://github.com/facebookresearch/sweet_rl

多轮决策任务的挑战与现有方法的局限

现实世界中的许多任务都需要智能体执行一系列的决策才能完成。要让智能体在这些任务上表现出色，通常需要直接优化多轮相关的目标，例如成功率。然而，与模仿每一轮中最可能的动作相比，直接优化多轮目标的难度要大得多。

目前，常用的方法包括：

单轮RLHF算法 (RAFT, DPO, PPO)： 这些算法不会在不同轮次间执行显式的credit分配，因此在复杂顺序决策任务中，可能会出现高方差和较差的样本复杂性等问题。
价值函数学习方法 (TD学习)： 这需要在LLM表征的基础上训练一个新的特定于任务的价值头，这可能无法在有限的微调数据下很好地泛化。

因此，哪种多轮RL算法最有效，能够充分利用LLM的推理能力来训练通用、有能力和目标导向的智能体，仍然是一个悬而未决的问题。

ColBench：一个新的协作智能体基准

为了解决为LLM智能体开发多轮RL算法的挑战，Meta FAIR和伯克利大学的研究团队构建了一个新的基准测试平台ColBench。该基准的设计遵循以下原则：

任务复杂性： 任务应具有足够的复杂性，可以挑战智能体的推理和泛化能力。
低开销： 尽可能地降低开销，以支持快速研究原型设计。
任务多样性： 应该有足够的任务多样性，以便在RL训练时不会过拟合。

ColBench目前包含两个任务：

后端编程协作： 智能体需要与人类模拟器协作编写自定义Python函数。智能体需要推理并决定需要人类模拟器提供哪些具体说明。人类模拟器根据只有它们自己可见的参考代码，用自然语言对每个需要说明的问题提供简要解释，但不会编写代码。
前端设计协作： 智能体需要与人类模拟器协作，通过编写HTML代码片段来设计网页。智能体可以对比来自智能体的网页和参考网页，然后人类模拟器向智能体描述它们的差异。

SWEET-RL：一种新型强化学习算法

SWEET-RL是一种两阶段训练方法。

第一阶段：学习各个轮次的优势函数

为了在推理密集型任务中执行显式credit分配，该团队提出直接学习每个轮次动作的优势函数。考虑到偏好优化已经在LLM微调方面得到成功应用，因此该团队提出根据轨迹的偏好对来训练每轮次优势函数。给定同一任务的两条轨迹，并附加训练时间信息，根据它们的累积奖励将它们标记为选取和拒绝。

SWEET-RL的优势与未来展望

SWEET-RL算法的提出，为解决LLM智能体在多轮决策任务中的挑战提供了一个新的思路。通过直接学习每个轮次动作的优势函数，SWEET-RL能够更有效地利用LLM的推理和泛化能力，从而提高智能体的性能。

ColBench基准的发布，为研究人员提供了一个统一的测试平台，可以更方便地比较不同算法的性能，并促进该领域的发展。

随着人工智能技术的不断发展，我们有理由相信，未来将会有更多更有效的算法被开发出来，从而让LLM智能体在各种复杂任务中发挥更大的作用。

参考文献

Zhou, Y., et al. (2025). SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks. arXiv preprint arXiv:2503.15478.

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

田渊栋、Levine联手，RL强化LLM，AI进化！

作者智能小编

相关文章

Cloudflare发布AutoRAG：全托管检索增强生成服务

Cloudflare Workflows：持久化执行，生产就绪！

Agent技术揭秘：MCP、认证、授权与免费持久对象

发表回复取消回复

为您推荐