复旦开源：低成本复现DeepSeek R1「Aha Moment」

上海讯 – 近日，复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队宣布，他们成功使用仅200余行代码，高效复现了DeepSeek R1模型中备受关注的“Aha Moment”（顿悟时刻）。该研究成果以开源项目Simple-GRPO的形式发布在Github上，为大模型研究和复现提供了新的思路和可能。

在人工智能领域，DeepSeek R1模型因其在强化学习过程中展现出的自发反思和策略调整能力，即“顿悟时刻”而备受瞩目。DeepSeek-R1-zero通过强化学习实现了大模型顿悟时刻的自发涌现，引发了大量对其方案的解读与复现工作。其中，基于 GRPO（ Group Relative Policy Optimization）强化学习方案尤其受到关注。然而，此前业界开源的R1-zero复现项目，普遍存在代码复杂、依赖性高、资源利用率低等问题，阻碍了研究人员的进一步探索和应用。

针对这些问题，复旦大学知识工场实验室团队基于GRPO算法思想，进行了大胆的简化和优化。他们提出的Simple-GRPO项目，具有以下显著优势：

代码简洁： 核心GRPO算法实现仅需200余行代码，极大地降低了学习和使用的门槛。
依赖简单： 仅依赖deepspeed和torch等基础深度学习库，无需ray等复杂框架，降低了部署难度。
资源消耗低： 通过模型解耦与分离，进一步降低了算力需求。该项目支持在一张A800 (80G) 加一张3090 (24G) 完成 7B 模型的训练。根据 AutoDL 平台计费标准，一张 A800 (80G) 5.98 元 / 时，一张 3090 (24G) 1.32 元 / 时。以项目作者经验，模型在这样的算力平台下，训练 1h 模型就能出现 aha moment，折合人民币 7.3 元，单次实验成本压缩至奶茶价格区间。

该团队通过将参考模型（reference model）解耦，使其可以在不同的GPU上运行，有效避免了显存浪费，并使得在A800（80G）上训练7B模型成为可能。此外，该项目还采用了Hugging Face的trl库来实现核心损失计算，进一步简化了代码实现。

实验结果表明，使用Qwen2.5-3B和Qwen2.5-7B作为基础模型，Simple-GRPO项目能够在较短的训练时间内，使模型展现出“顿悟时刻”的现象。例如，在Qwen2.5-7B模型的训练过程中，模型能够主动反思并纠正错误，展现出类似人类的逻辑推理能力。

肖仰华教授表示，Simple-GRPO项目的开源，旨在降低大模型研究的门槛，鼓励更多研究人员参与到大模型自发反思能力的研究中来。他希望该项目能够为大模型的发展提供新的思路和动力。

该研究成果已在Github上开源，项目地址为：https://github.com/lsdefine/simple_GRPO。

参考文献：

DeepSeek 论文 (具体论文链接需补充)
Simple-GRPO Github 仓库: https://github.com/lsdefine/simple_GRPO
Hugging Face trl 库 (具体库链接需补充)

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

复旦开源：低成本复现DeepSeek R1「Aha Moment」

作者智能小编

相关文章

腾讯AI“元宝”杀入微信，13亿用户社交版图重塑？

2025人工智能：颠覆与新生

北大团队突破！单目长视频实时重建高质量3D点云

发表回复取消回复

为您推荐