Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news pappernews papper
0

机器之心报道

在人工智能领域,如何提升大语言模型(LLMs)的推理能力一直是研究的热点。近期,腾讯 AI Lab 与厦门大学、苏州大学的研究团队合作,针对基于树搜索的大语言模型推理过程中存在的“过思考”与“欠思考”问题,提出了一个名为 Fetch 的高效树搜索框架。这项研究为优化大模型推理效率,降低计算成本提供了新的思路。

背景与动机:推理时计算扩展的挑战

随着 OpenAI-o1 等模型展现出卓越的推理性能,研究人员开始探索通过推理时计算扩展(Test-Time Computation)来增强大语言模型的能力。其中,基于验证器引导的树搜索算法因其在复杂问题最优解搜索方面的优势,成为一种备受关注的技术路径。然而,传统的树搜索算法,如集束搜索(Beam Search)、最佳优先搜索(Best-First Search)、A*算法以及蒙特卡洛树搜索(MCTS),也面临着一些固有缺陷。

这些算法往往需要承担高昂的计算开销,并且难以根据问题复杂度动态调整计算资源分配。为了解决这些问题,研究团队对树搜索的行为范式进行了系统性解构,首次揭示了推理过程中存在的“过思考”与“欠思考”双重困境。

“过思考”与“欠思考”:树搜索的效率瓶颈

研究团队以最佳优先搜索算法为研究对象,在 GSM8K 数据集上进行了实验。他们发现,随着子节点拓展数的增加,模型性能虽然持续提升,但呈现边际效益递减的规律。与此同时,计算开销却呈指数级增长,这表明传统树搜索在推理时计算扩展方面存在效率瓶颈。

通过深入分析搜索过程,研究团队发现了搜索树中存在的两类关键缺陷:

  • 节点冗余: 大语言模型采样机制的随机性导致搜索树中生成大量语义重复的节点。这些冗余节点使得算法重复遍历相似的推理路径,造成“过思考”困境。
  • 验证器不稳定性: 引导搜索的验证器在鲁棒性方面存在缺陷,节点评分容易受到推理路径表述差异的影响而产生不必要的波动。这种不稳定性可能导致搜索路径的局部震荡,迫使搜索算法过早终止高潜力路径的深度探索,从而产生“欠思考”现象。

Fetch:高效树搜索框架

为了应对“过思考”与“欠思考”问题,研究团队提出了高效树搜索框架 Fetch。该框架的核心包含两个部分:

  • 冗余节点合并(State Merging): 通过合并语义重复的节点,有效避免冗余节点的重复探索。
  • 验证方差抑制(Variance Reduction): 采用训练阶段与推理阶段的双重优化策略,降低验证器评分的不必要波动。

冗余节点合并

Fetch 框架采用层次聚类算法(Agglomerative Clustering)实现节点冗余合并。当搜索算法生成子节点后,首先基于 SimCSE 句子表示模型提取节点语义特征向量,然后应用聚类算法形成超节点(Hyper-Node)。通过将语义等价节点聚合为单一超节点,Fetch 有效避免了冗余节点的重复拓展。

针对通用领域预训练 SimCSE 在数学推理场景下存在的领域适配问题,研究团队还对 SimCSE 进行了微调。他们提出了两种可选的节点对语义等价标注方案:

  • 基于提示: 利用大语言模型的指令遵循能力,通过用户指令自动生成节点对语义等价性标注。
  • 基于一致性: 基于重复节点后续采样结果具有更高一致性的先验假设,通过比较节点后续推理路径的概率相似度,构建无监督标注数据集。

验证方差抑制

为了解决验证器评分不稳定的问题,研究团队提出了训练和测试两阶段的优化方案。

在训练阶段,他们借鉴时序差分学习(Temporal Difference Learning),引入训练验证器。通过将蒙特卡洛采样与时序差分学习结合,平衡训练数据的偏差(bias)及方差(variance),从而降低验证器评分的方差。

在推理阶段,研究团队实施验证器集成策略,以有效抑制个体验证器的异常波动。通过集成多个验证器的评分结果,可以提高评分的准确性和稳定性。

实验结果

实验结果表明,Fetch 框架在跨数据集与跨算法测试中均展现出显著优势。例如,在 GSM8K 数据集上,Fetch 框架在保持或提升模型性能的同时,显著降低了计算开销。

总结与展望

腾讯 AI Lab 与厦门大学、苏州大学的研究团队提出的 Fetch 框架,通过解决树搜索中存在的“过思考”与“欠思考”问题,为提升大语言模型的推理效率提供了一种新的解决方案。该研究不仅具有重要的理论意义,也为实际应用带来了潜在价值。未来,研究人员可以进一步探索 Fetch 框架在更多场景下的应用,并结合其他优化技术,进一步提升大语言模型的推理能力。

参考文献

  • 论文题目:Don’t Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls
  • 论文地址:https://arxiv.org/abs/2502.11183

致谢

感谢腾讯 AI Lab 研究员宋林峰、涂兆鹏,厦门大学苏劲松教授,以及厦门大学博士生王安特对本文的贡献。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注