DeepSeek R1 也会“脑过载”？性能下降成本却降低！

旧金山 – 近日，一项由加州大学伯克利分校、UIUC、ETH Zurich、CMU 等顶尖学府联合进行的研究表明，大型推理模型（Large Reasoning Model，LRM）在执行智能体任务时，如同人类一样，也会因“用脑过度”而导致性能下降。这项研究揭示了 LRM 在推理和行动之间面临的困境，并强调了过度思考可能带来的负面影响。

该研究成果以论文形式发表，题为《过度思考的危险：审视智能体任务中的推理-行动困境》（The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks）。论文链接为：https://arxiv.org/pdf/2502.08235

研究人员发现，即使在“单机模式”下，LRM 在实时互动环境中也常常表现出“思想上的巨人，行动中的矮子”的窘境。模型在面对任务时，常常陷入“先思考清楚每一步再行动”还是“撸起袖子直接干”的两难选择。为了让 LRM 能够胜任现实世界中的复杂任务，研究者们深入研究了这些具备思考能力的 AI 如何在同时获取信息、保持记忆并作出反应的复杂环境中平衡“想”和“做”的关系。

为了解答这些问题，研究团队对包括 DeepSeek R1、o1、Qwen2.5 等在内的 LRM 进行了首次全面调研，并深入剖析了它们在智能体任务中存在的推理-行动困境。研究人员以现实世界的软件工程任务作为实验框架，并借助 SWE-bench Verified 基准以及 OpenHands 框架内的 CodeAct 智能体架构进行实验。

在受控环境中，LRM 必须在信息收集与推理链之间取得平衡，并在多个交互中保持上下文连贯。研究结果表明，过度的内部推理链可能会导致模型对环境做出错误的假设。LRM 在推理-行动困境中表现出一致的行为模式，即倾向于内部模拟而非环境交互，耗费大量时间构建复杂的预测行动链，而非适应实际的系统响应。研究者将这种现象称为“过度思考”。

为了量化“过度思考”，研究者使用 LLM-as-a-judge 开发并验证了一个系统评估框架，该框架识别出三种关键模式：

分析瘫痪（Analysis Paralysis）： 花费过多时间规划未来步骤，却无法行动。
恶意行为（Rogue Actions）： 面对错误，尝试同时执行多个动作，破坏环境的顺序约束。
过早放弃（Premature Disengagement）： 基于内部预测而非环境反馈提前终止任务。

研究人员对 4018 条轨迹进行了系统分析，并创建了一个综合性开源数据集，旨在推进在智能体环境中平衡推理与行动的研究。统计分析结果显示，无论是推理模型还是非推理模型，“过度思考”与问题解决率之间存在显著的负相关性，即随着“过度思考”的增加，性能会急剧下降。更重要的是，推理模型始终表现出更高的“过度思考”分数，几乎是非推理模型的三倍，这意味着推理模型更容易受到“过度思考”的影响。

针对这一问题，研究者提出了两种潜在的缓解方法：原生函数调用和选择性强化学习。这两种方法都可以显著减少“过度思考”，同时提高模型性能，尤其是函数调用模型显示出了极具潜力的结果。

解决 LRM 的“过度思考”问题具有巨大的实际效益。例如，运行具有强推理能力的 o1 可以实现 29.1% 的问题解决率，但成本高达 1400 美元。相比之下，运行较低推理能力的 o1 变体可以实现 21.0% 的问题解决率，成本仅为 400 美元，降低了 3.5 倍。更令人惊讶的是，与使用成本高昂的强推理配置相比，生成两个较少推理量的解决方案（总计 800 美元）并选择其中“过度思考”分数较低的一个，则可以实现 27.3% 的问题解决率。这种简单的策略几乎与强推理配置的表现相当，同时将计算成本降低了 43%。

这项研究为我们理解大型推理模型的行为模式提供了新的视角，并为优化其性能、降低计算成本指明了方向。未来，如何更好地平衡推理与行动，避免“过度思考”，将是 LRM 走向实用化的关键挑战之一。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

DeepSeek R1 也会“脑过载”？性能下降成本却降低！

作者智能小编

相关文章

马拉松赛事井喷，行业迎来“狂飙”！

Shanghai’s Coffee Craze White-Collar Workers Drive an Hour for This Cup!

沪上咖啡新势力：白领一小时车程只为这一杯！

发表回复取消回复

为您推荐