华盛顿特区 — 人工智能(AI)领域迎来一项令人瞩目的新进展。由微软亚洲研究院、九坤投资以及独立研究员组成的联合团队,通过一种创新的强化学习方法,显著提升了AI模型在数学竞赛中的表现。令人惊讶的是,他们仅使用逻辑益智题进行训练,便使一个7B(70亿参数)的小型模型在逻辑推理测试中超越了OpenAI的o1模型,并逼近了o3-mini-high的水平。
这项研究成果以论文《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》的形式发布,并在AIxiv专栏上进行了报道。该专栏由机器之心发布,旨在促进学术交流与传播。
低成本强化学习,性能大幅提升
该团队通过仅五千条合成数据进行低成本强化学习,成功地让7B小模型在逻辑推理测试中表现出色。更令人惊叹的是,在完全未见过的美国数学奥林匹克(AIME)测试中,该模型的推理性能提升了125%!
研究团队提出的关键问题
该研究团队开宗明义,提出了以下几个关键问题,旨在深入探究强化学习在提升AI推理能力方面的潜力:
- DeepSeek R1 所采用的 GRPO 是否是最合适的强化学习(RL)算法?应该如何调参实现稳定训练?由易到难的课程学习还有用吗?
- 从 Base 模型启动 RL 与完全冷启动,究竟有多大差异?哪种方式更优?
- 训练中,模型输出长度常呈现近似线性增长的 Scaling Law,但这种增长速度是否等同于推理能力的提升?
- 当模型频繁使用 “verify” “check” 等反思性词汇时,是否意味着其推理能力增强了?哪些 token 能可靠反映推理性能的提升?
- RL 是真正掌握了抽象推理能力,还是仅仅依赖问题模板的死记硬背?相比传统有监督微调(SFT),它的优势究竟体现在哪里?
- 推理过程中,模型时常混用中文和英文,这种语言切换现象对性能提升是否有实际帮助,甚至是否可能有害?
数据选择与奖励机制
为了更好地分析推理模型的机制,研究团队选择完全由程序合成的「逻辑谜题」作为训练数据。这种谜题具有以下优点:
- 谜题对于模型来说都是未见过的数据,非常适合用来测试泛化能力。
- 通过改变游戏人数和逻辑运算的深度,可以调节难度。
- 每个谜题都有一个单一、明确的正确答案,正确性由生成算法保证。
- 这消除了自然语言任务中常见的模糊性,使研究团队能够清晰地区分真正的推理能力和数据表面上的记忆能力。
此外,研究团队还设计了一种基于规则的奖励系统,以鼓励模型进行真实的推理,并避免作弊行为。该系统包含两种奖励类型:格式奖励和答案奖励。
实验结果与开源
经过大量的对比实验,研究团队发现,经过5K个逻辑问题的训练后,7B模型就发展出了一些在逻辑语料库中原本不存在的高级推理技能 —— 如自我反思、验证和总结能力。在没见过的数学竞赛题 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。
值得一提的是,该团队不仅完整开源了全流程代码,还发布了详细的参数设置,训练数据和设计经验,为其他研究者提供了宝贵的参考。
未来展望
这项研究成果表明,通过精心设计的强化学习方法,即使是小型AI模型也能在复杂的推理任务中表现出色。这为AI领域的研究人员提供了一种新的思路,即可以通过低成本的训练方式,提升AI模型的推理能力。未来,我们可以期待更多基于强化学习的AI模型在数学、科学等领域取得突破性进展。
参考文献
- 谢天, 洪毓谦, 邱凯, 武智融, 罗翀, 高梓添, Bryan Dai, Joey Zhou, 任庆楠, 罗浩铭. (2025). Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning. arXiv preprint arXiv:2502.14768.
https://arxiv.org/abs/2502.14768 - 机器之心. (2025). 仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini.
机器之心报道
(完)
Views: 0