Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news pappernews papper
0

旧金山 – 近日,一项由加州大学伯克利分校、UIUC、ETH Zurich、CMU 等顶尖学府联合进行的研究表明,大型推理模型(Large Reasoning Model,LRM)在执行智能体任务时,如同人类一样,也会因“用脑过度”而导致性能下降。这项研究揭示了 LRM 在推理和行动之间面临的困境,并强调了过度思考可能带来的负面影响。

该研究成果以论文形式发表,题为《过度思考的危险:审视智能体任务中的推理-行动困境》(The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks)。论文链接为:https://arxiv.org/pdf/2502.08235

研究人员发现,即使在“单机模式”下,LRM 在实时互动环境中也常常表现出“思想上的巨人,行动中的矮子”的窘境。模型在面对任务时,常常陷入“先思考清楚每一步再行动”还是“撸起袖子直接干”的两难选择。为了让 LRM 能够胜任现实世界中的复杂任务,研究者们深入研究了这些具备思考能力的 AI 如何在同时获取信息、保持记忆并作出反应的复杂环境中平衡“想”和“做”的关系。

为了解答这些问题,研究团队对包括 DeepSeek R1、o1、Qwen2.5 等在内的 LRM 进行了首次全面调研,并深入剖析了它们在智能体任务中存在的推理-行动困境。研究人员以现实世界的软件工程任务作为实验框架,并借助 SWE-bench Verified 基准以及 OpenHands 框架内的 CodeAct 智能体架构进行实验。

在受控环境中,LRM 必须在信息收集与推理链之间取得平衡,并在多个交互中保持上下文连贯。研究结果表明,过度的内部推理链可能会导致模型对环境做出错误的假设。LRM 在推理-行动困境中表现出一致的行为模式,即倾向于内部模拟而非环境交互,耗费大量时间构建复杂的预测行动链,而非适应实际的系统响应。研究者将这种现象称为“过度思考”。

为了量化“过度思考”,研究者使用 LLM-as-a-judge 开发并验证了一个系统评估框架,该框架识别出三种关键模式:

  • 分析瘫痪(Analysis Paralysis): 花费过多时间规划未来步骤,却无法行动。
  • 恶意行为(Rogue Actions): 面对错误,尝试同时执行多个动作,破坏环境的顺序约束。
  • 过早放弃(Premature Disengagement): 基于内部预测而非环境反馈提前终止任务。

研究人员对 4018 条轨迹进行了系统分析,并创建了一个综合性开源数据集,旨在推进在智能体环境中平衡推理与行动的研究。统计分析结果显示,无论是推理模型还是非推理模型,“过度思考”与问题解决率之间存在显著的负相关性,即随着“过度思考”的增加,性能会急剧下降。更重要的是,推理模型始终表现出更高的“过度思考”分数,几乎是非推理模型的三倍,这意味着推理模型更容易受到“过度思考”的影响。

针对这一问题,研究者提出了两种潜在的缓解方法:原生函数调用和选择性强化学习。这两种方法都可以显著减少“过度思考”,同时提高模型性能,尤其是函数调用模型显示出了极具潜力的结果。

解决 LRM 的“过度思考”问题具有巨大的实际效益。例如,运行具有强推理能力的 o1 可以实现 29.1% 的问题解决率,但成本高达 1400 美元。相比之下,运行较低推理能力的 o1 变体可以实现 21.0% 的问题解决率,成本仅为 400 美元,降低了 3.5 倍。更令人惊讶的是,与使用成本高昂的强推理配置相比,生成两个较少推理量的解决方案(总计 800 美元)并选择其中“过度思考”分数较低的一个,则可以实现 27.3% 的问题解决率。这种简单的策略几乎与强推理配置的表现相当,同时将计算成本降低了 43%。

这项研究为我们理解大型推理模型的行为模式提供了新的视角,并为优化其性能、降低计算成本指明了方向。未来,如何更好地平衡推理与行动,避免“过度思考”,将是 LRM 走向实用化的关键挑战之一。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注