Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

复旦团队突破大模型推理瓶颈:Two-Player架构引领AI新纪元

引言: 大型语言模型(LLM)的Scaling Law,即性能随着模型规模和数据量的增加而提升的规律,正遭遇前所未有的挑战。 这一曾经被奉为圭臬的定律,如今似乎触及了瓶颈。 复旦大学自然语言处理研究团队另辟蹊径,提出了一种名为“Two-Player”的双模型协作架构,为突破这一瓶颈提供了新的思路,并取得了显著成果。这项研究为大模型推理能力的提升指明了方向,预示着AI领域一个新的纪元的到来。

主体:

1. Scaling Law的困境与反思的局限性: 近年来,AI领域对LLM的规模竞赛愈演愈烈,然而单纯增加模型参数和训练数据并不能无限提升性能。OpenAI的o1模型通过增加推理时间,允许模型进行自我反思和纠正,取得了显著进展,但这依赖于模型自身的纠错能力,容易陷入瓶颈,缺乏外部引导。传统的单模型自我反思和纠正方法,受限于模型自身能力,难以突破瓶颈。

2. Two-Player架构:打破单模型限制,实现协同进化: 复旦团队提出的Two-Player架构,巧妙地将模型推理过程转化为两个模型间的互动。该架构包含两个核心模型:行为模型(Actor Model)负责推理,评判模型(Critique Model)则扮演“导师”的角色,对行为模型的推理步骤进行实时评估和反馈。这种设计突破了单模型的局限,行为模型不再孤军奋战,而是获得了外部的指导和纠正。

3. AutoMathCritique框架:自动化构建高质量反馈数据集: 为了训练高效可靠的评判模型,研究团队开发了AutoMathCritique框架。该框架能够自动化生成步骤级别的反馈数据(step-level feedback),解决了高质量反馈数据稀缺的问题。AutoMathCritique包含三个关键步骤:构建错误推理路径、标注步骤级别反馈以及精筛反馈,最终构建了包含76,000个样本的MathCritique-76k数据集。

4. 测试阶段和训练阶段的扩展: Two-Player架构不仅在训练阶段有效,还在测试阶段发挥了关键作用。通过Critique-in-the-Loop机制,评判模型在测试过程中持续为行为模型提供反馈,引导其进行更准确的推理。这有效缓解了自训练过程中常见长尾分布问题,提升了模型的泛化能力。 该架构同时在训练阶段(Training-time Scaling)和测试阶段(Test-time Scaling)都实现了性能的提升。

5. Self-talk机制:模型自我纠错的利器: 基于Critique数据,研究团队还引入了Self-talk机制,进一步增强了模型的自我纠错能力。通过模拟人与人之间的对话,模型能够更好地理解自身的错误,并进行有效的修正。

结论: 复旦团队的Two-Player架构为解决Scaling Law撞墙问题提供了一种全新的思路。通过双模型协作,该架构有效地克服了单模型自我反思的局限性,实现了模型性能的持续提升。AutoMathCritique框架的开发,则解决了高质量反馈数据稀缺的问题,为该架构的应用提供了坚实的基础。这项研究不仅在理论上具有重要意义,也为实际应用提供了新的可能性,为大模型在更复杂任务上的应用铺平了道路。 未来的研究可以探索更复杂的双模型交互机制,以及将该架构应用于更广泛的领域,例如自然语言理解、代码生成和科学发现等。

参考文献:

(注:本文中部分信息来源于提供的材料,并进行了整合、润色和补充,以符合新闻报道的规范和风格。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注