大模型推理新突破：复旦团队挑战Scaling Law极限 Scaling Law撞墙？复旦团队另辟蹊径复旦团队：AI大模型推理

复旦团队突破大模型推理瓶颈：Two-Player架构引领AI新纪元

引言： 大型语言模型（LLM）的Scaling Law，即性能随着模型规模和数据量的增加而提升的规律，正遭遇前所未有的挑战。这一曾经被奉为圭臬的定律，如今似乎触及了瓶颈。复旦大学自然语言处理研究团队另辟蹊径，提出了一种名为“Two-Player”的双模型协作架构，为突破这一瓶颈提供了新的思路，并取得了显著成果。这项研究为大模型推理能力的提升指明了方向，预示着AI领域一个新的纪元的到来。

主体：

1. Scaling Law的困境与反思的局限性： 近年来，AI领域对LLM的规模竞赛愈演愈烈，然而单纯增加模型参数和训练数据并不能无限提升性能。OpenAI的o1模型通过增加推理时间，允许模型进行自我反思和纠正，取得了显著进展，但这依赖于模型自身的纠错能力，容易陷入瓶颈，缺乏外部引导。传统的单模型自我反思和纠正方法，受限于模型自身能力，难以突破瓶颈。

2. Two-Player架构：打破单模型限制，实现协同进化： 复旦团队提出的Two-Player架构，巧妙地将模型推理过程转化为两个模型间的互动。该架构包含两个核心模型：行为模型（Actor Model）负责推理，评判模型（Critique Model）则扮演“导师”的角色，对行为模型的推理步骤进行实时评估和反馈。这种设计突破了单模型的局限，行为模型不再孤军奋战，而是获得了外部的指导和纠正。

3. AutoMathCritique框架：自动化构建高质量反馈数据集： 为了训练高效可靠的评判模型，研究团队开发了AutoMathCritique框架。该框架能够自动化生成步骤级别的反馈数据（step-level feedback），解决了高质量反馈数据稀缺的问题。AutoMathCritique包含三个关键步骤：构建错误推理路径、标注步骤级别反馈以及精筛反馈，最终构建了包含76,000个样本的MathCritique-76k数据集。

4. 测试阶段和训练阶段的扩展： Two-Player架构不仅在训练阶段有效，还在测试阶段发挥了关键作用。通过Critique-in-the-Loop机制，评判模型在测试过程中持续为行为模型提供反馈，引导其进行更准确的推理。这有效缓解了自训练过程中常见长尾分布问题，提升了模型的泛化能力。该架构同时在训练阶段（Training-time Scaling）和测试阶段（Test-time Scaling）都实现了性能的提升。

5. Self-talk机制：模型自我纠错的利器： 基于Critique数据，研究团队还引入了Self-talk机制，进一步增强了模型的自我纠错能力。通过模拟人与人之间的对话，模型能够更好地理解自身的错误，并进行有效的修正。

结论： 复旦团队的Two-Player架构为解决Scaling Law撞墙问题提供了一种全新的思路。通过双模型协作，该架构有效地克服了单模型自我反思的局限性，实现了模型性能的持续提升。AutoMathCritique框架的开发，则解决了高质量反馈数据稀缺的问题，为该架构的应用提供了坚实的基础。这项研究不仅在理论上具有重要意义，也为实际应用提供了新的可能性，为大模型在更复杂任务上的应用铺平了道路。未来的研究可以探索更复杂的双模型交互机制，以及将该架构应用于更广泛的领域，例如自然语言理解、代码生成和科学发现等。

参考文献：

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision. http://arxiv.org/abs/2411.16579
项目主页：https://mathcritique.github.io/
代码仓库：https://github.com/WooooDyy/MathCritique
数据仓库：https://huggingface.co/datasets/MathCritique/MathCritique-76k

(注：本文中部分信息来源于提供的材料，并进行了整合、润色和补充，以符合新闻报道的规范和风格。)

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

大模型推理新突破：复旦团队挑战Scaling Law极限 Scaling Law撞墙？复旦团队另辟蹊径复旦团队：AI大模型推理

作者智能小编

复旦团队突破大模型推理瓶颈：Two-Player架构引领AI新纪元

相关文章

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

发表回复取消回复

为您推荐

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

OpenAI深夜重磅：GPT-4.1支持百万Token编程！

作者智能小编

复旦团队突破大模型推理瓶颈：Two-Player架构引领AI新纪元

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复