Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

上海讯 – 近日,复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队宣布,他们成功使用仅200余行代码,高效复现了DeepSeek R1模型中备受关注的“Aha Moment”(顿悟时刻)。该研究成果以开源项目Simple-GRPO的形式发布在Github上,为大模型研究和复现提供了新的思路和可能。

在人工智能领域,DeepSeek R1模型因其在强化学习过程中展现出的自发反思和策略调整能力,即“顿悟时刻”而备受瞩目。DeepSeek-R1-zero通过强化学习实现了大模型顿悟时刻的自发涌现,引发了大量对其方案的解读与复现工作。其中,基于 GRPO( Group Relative Policy Optimization)强化学习方案尤其受到关注。然而,此前业界开源的R1-zero复现项目,普遍存在代码复杂、依赖性高、资源利用率低等问题,阻碍了研究人员的进一步探索和应用。

针对这些问题,复旦大学知识工场实验室团队基于GRPO算法思想,进行了大胆的简化和优化。他们提出的Simple-GRPO项目,具有以下显著优势:

  • 代码简洁: 核心GRPO算法实现仅需200余行代码,极大地降低了学习和使用的门槛。
  • 依赖简单: 仅依赖deepspeed和torch等基础深度学习库,无需ray等复杂框架,降低了部署难度。
  • 资源消耗低: 通过模型解耦与分离,进一步降低了算力需求。该项目支持在一张A800 (80G) 加一张3090 (24G) 完成 7B 模型的训练。根据 AutoDL 平台计费标准,一张 A800 (80G) 5.98 元 / 时,一张 3090 (24G) 1.32 元 / 时。以项目作者经验,模型在这样的算力平台下,训练 1h 模型就能出现 aha moment,折合人民币 7.3 元,单次实验成本压缩至奶茶价格区间。

该团队通过将参考模型(reference model)解耦,使其可以在不同的GPU上运行,有效避免了显存浪费,并使得在A800(80G)上训练7B模型成为可能。此外,该项目还采用了Hugging Face的trl库来实现核心损失计算,进一步简化了代码实现。

实验结果表明,使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,Simple-GRPO项目能够在较短的训练时间内,使模型展现出“顿悟时刻”的现象。例如,在Qwen2.5-7B模型的训练过程中,模型能够主动反思并纠正错误,展现出类似人类的逻辑推理能力。

肖仰华教授表示,Simple-GRPO项目的开源,旨在降低大模型研究的门槛,鼓励更多研究人员参与到大模型自发反思能力的研究中来。他希望该项目能够为大模型的发展提供新的思路和动力。

该研究成果已在Github上开源,项目地址为:https://github.com/lsdefine/simple_GRPO

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注