上海讯 – 近日,复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队宣布,他们成功使用仅200余行代码,高效复现了DeepSeek R1模型中备受关注的“Aha Moment”(顿悟时刻)。该研究成果以开源项目Simple-GRPO的形式发布在Github上,为大模型研究和复现提供了新的思路和可能。
在人工智能领域,DeepSeek R1模型因其在强化学习过程中展现出的自发反思和策略调整能力,即“顿悟时刻”而备受瞩目。DeepSeek-R1-zero通过强化学习实现了大模型顿悟时刻的自发涌现,引发了大量对其方案的解读与复现工作。其中,基于 GRPO( Group Relative Policy Optimization)强化学习方案尤其受到关注。然而,此前业界开源的R1-zero复现项目,普遍存在代码复杂、依赖性高、资源利用率低等问题,阻碍了研究人员的进一步探索和应用。
针对这些问题,复旦大学知识工场实验室团队基于GRPO算法思想,进行了大胆的简化和优化。他们提出的Simple-GRPO项目,具有以下显著优势:
- 代码简洁: 核心GRPO算法实现仅需200余行代码,极大地降低了学习和使用的门槛。
- 依赖简单: 仅依赖deepspeed和torch等基础深度学习库,无需ray等复杂框架,降低了部署难度。
- 资源消耗低: 通过模型解耦与分离,进一步降低了算力需求。该项目支持在一张A800 (80G) 加一张3090 (24G) 完成 7B 模型的训练。根据 AutoDL 平台计费标准,一张 A800 (80G) 5.98 元 / 时,一张 3090 (24G) 1.32 元 / 时。以项目作者经验,模型在这样的算力平台下,训练 1h 模型就能出现 aha moment,折合人民币 7.3 元,单次实验成本压缩至奶茶价格区间。
该团队通过将参考模型(reference model)解耦,使其可以在不同的GPU上运行,有效避免了显存浪费,并使得在A800(80G)上训练7B模型成为可能。此外,该项目还采用了Hugging Face的trl库来实现核心损失计算,进一步简化了代码实现。
实验结果表明,使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,Simple-GRPO项目能够在较短的训练时间内,使模型展现出“顿悟时刻”的现象。例如,在Qwen2.5-7B模型的训练过程中,模型能够主动反思并纠正错误,展现出类似人类的逻辑推理能力。
肖仰华教授表示,Simple-GRPO项目的开源,旨在降低大模型研究的门槛,鼓励更多研究人员参与到大模型自发反思能力的研究中来。他希望该项目能够为大模型的发展提供新的思路和动力。
该研究成果已在Github上开源,项目地址为:https://github.com/lsdefine/simple_GRPO。
参考文献:
- DeepSeek 论文 (具体论文链接需补充)
- Simple-GRPO Github 仓库: https://github.com/lsdefine/simple_GRPO
- Hugging Face trl 库 (具体库链接需补充)
Views: 0