THINK TWICE：大模型推理新突破？

北京，2025年4月5日 – 近年来，大语言模型（LLM）的性能提升日益依赖推理阶段的优化，测试时扩展（test-time scaling）成为研究热点。在 OpenAI 的 o1 系列和 DeepSeek 的 R1 模型展示出强大推理能力的同时，复杂的训练策略、繁琐的提示工程以及对外部评分系统的依赖也带来了诸多挑战。

近日，由 a-m-team 团队提出的一项名为“Think Twice”（三思而后行）的新研究，为大模型推理提供了一个简洁而有效的解决方案。该方法无需额外训练，不引入复杂机制，仅通过模拟人类“再想一轮”的思维模式，便在多个基准测试中实现了显著的性能提升。

论文链接：https://arxiv.org/abs/2503.19855
项目地址：https://github.com/a-m-team/a-m-models

“Multi-round Thinking”：一轮不够，那就两轮、三轮

“Think Twice”方法的核心思想源于人类的反思机制。模型首先基于原始问题生成初步答案，然后将该答案（而非推理过程）作为新的提示，促使模型独立“重答”一次，并在每一轮中不断修正先前的错误。与传统的推理方式不同，该方法不依赖于上一次的推理轨迹，而是以“结果驱动”的方式进行自我反思与纠错，逐步逼近更合理的答案。

研究人员指出，这种策略有效缓解了大模型推理中常见的“认知惯性”，即模型过度依赖初始推理路径而难以跳脱错误逻辑的现象。

不靠训练，也能提升多个基准性能

研究团队在四个权威数据集上验证了该方法的有效性，包括：

AIME 2024（美国数学邀请赛）
MATH-500（由 OpenAI 从原始 MATH 数据集中精选出 500 个最具挑战性的问题）
GPQA-Diamond（研究生级别问答）
LiveCodeBench（编程任务）

结果显示，在不改变模型结构、无额外训练的前提下，DeepSeek-R1 和 QwQ-32B 等主流模型在所有测试集上均表现出不同程度的性能提升。例如：

DeepSeek-R1 在 AIME 上从 79.7% 提升至 82.0%
QwQ-32B 在 AIME 上从 80.3% 提升至 83.1%

更值得注意的是，在进行 2 轮、3 轮甚至 4 轮的“再思考”后，准确率稳步上升，模型表现出更强的稳定性和反思能力。

更短的答案、更少的犹豫：模型开始 “自信发言”

除了准确率的提升，研究团队还观察到了语言风格的变化。通过分析模型生成内容中“but”、“wait”、“maybe”、“therefore”等语气词的使用频率，他们发现：

模型在第二轮中使用“but”、“wait”等不确定词的频率明显减少。
即使在多轮中仍答错，模型的表达也趋向更加简洁、自信。
当模型成功从错误中修正时，常伴随着更慎重的过渡语，例如“wait”、“therefore”增多。

这种变化表明，多轮推理不仅提升了结果准确性，也改变了模型的表达风格，使其在回答时更加“像人类”，且逻辑清晰。

多做题同时多思考：可能是更好路径

这项研究的一个关键优势在于：它完全作用于推理阶段，不需要额外的训练资源，即插即用。这种方法对于模型部署阶段的优化具有高度实用性，同时也为后续研究提供了可拓展的思路 —— 如何结合监督微调，或构建更智能的多轮判断机制。目前研究团队已尝试使用基于多轮推理结果的监督微调数据对模型进一步训练，初步结果显示尚未显著突破，但为“训练 + 推理”的结合方向奠定了基础。

结语

“Think Twice”展示了一种简单有效的思路：鼓励大模型主动“反思”，用多轮推理激发更强的认知能力。它不仅提升了准确率，更令模型在语言表达上变得更加理性、紧凑、自信。在训练成本不断攀升的今天，这种无需再训练的“轻量级优化”无疑具有极强的现实吸引力。未来，多轮推理或许能成为一种标准机制，帮助模型更接近真正意义上的“会思考”。

参考文献

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking, arXiv:2503.19855.
a-m-team, GitHub Repository: https://github.com/a-m-team/a-m-models

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30