北京 – 近日,人工智能领域的一项最新研究揭示了长推理模型(Long Reasoning Models)在深度思考方面可能存在的“思考不足”(Underthinking)问题。这项研究由腾讯 AI Lab 与苏州大学、上海交通大学团队联合完成,挑战了此前人们对这类模型“深度思考”能力的认知。
长推理模型,如 OpenAI 的 o1、QwQ-32B-Preview、DeepSeek-R1-671B 和 Kimi K1.5 等,因其在解决复杂问题时展现出的类似人类的深度思考能力而备受关注。这些模型通过长时间推理,能够在解码阶段不断尝试新的思路来优化答案质量。然而,这项最新的研究表明,这些模型在面对复杂问题时,可能会频繁切换思路,无法将注意力集中在一个正确的思路上并深入思考,从而导致错误答案。
该研究团队将“思路(thought)”定义为模型在推理策略中产生的中间认知步骤。长推理模型常常通过使用 “alternatively” 等术语来切换推理思路,例如从代数操作转向几何解释,再到优化策略。这种思路切换被认为是模型在解决复杂问题时的灵活性体现。
然而,研究人员通过在 AIME24、Math500-Hard 和 GPQA Diamond 等测试集上的深入分析发现,相较于正确答案,长推理模型在错误回答中往往会出现更多的推理思路切换,导致回答长度显著增长,但准确性却未能相应提升。例如,在 AIME24 上,长推理模型在错误回答中因频繁思路切换,生成的 token 数量比正确回答多出 225%,思路数量增加了 418%。
这一趋势表明,尽管模型被设计为动态调整其认知过程来解决问题,但更频繁的思路切换并不一定能提升准确性。研究团队将这种现象命名为 “思考不足”(Underthinking),认为长推理模型在推理过程中频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。
腾讯 AI Lab 专家研究员涂兆鹏是该论文的通讯作者,他表示,频繁切换思路而得出错误答案的行为,可能源于以下两个原因:一是真正的思考不足,即模型虽然找到了一条有希望的思路,但未能持续深入地坚持下去;二是对问题缺乏深入理解,从而盲目探索各种无效的方法。
为了进一步厘清这些可能性,研究团队提出了一个评估框架,用于评估一条被放弃的推理路径是否足以得出正确答案。
这项研究的发现对长推理模型的发展具有重要意义。它表明,在面对复杂问题时,除了探索额外的认知途径外,更需要以更有针对性和高效的方式进行操作,才能在推理复杂的问题时提升准确性。未来的研究方向可能包括如何引导模型更有效地集中注意力,避免不必要的思路切换,以及如何提高模型对问题的深入理解能力。
该研究论文题为《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》,已发布在 arXiv 预印本平台上。
参考文献:
- 王越, 刘秋志, 徐嘉豪, 梁添, 陈星宇, 何志威, & 涂兆鹏. (2025). Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs. arXiv. https://arxiv.org/pdf/2501.18585
- 机器之心. (2024). 从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题. https://www.jiqizhixin.com/
(完)
Views: 0