北京,2024年5月15日 – 在人工智能领域竞争日趋激烈的当下,国产大模型技术传来喜讯。近日,九章云极 DataCanvas 联合中国人民大学 STILL 项目团队、北京智源研究院团队,在大模型慢思考推理技术上取得重要进展,成功复现并改进了类 R1 推理模型,并完整开源了相关技术细节和训练技巧。这一成果不仅打破了国外技术垄断,也为国内大模型研究和应用提供了强有力的支持。
大模型慢思考推理技术:AI走向“深思熟虑”的关键一步
近年来,以 ChatGPT 为代表的大模型在自然语言处理、图像识别等领域取得了显著成果。然而,这些模型在复杂推理、逻辑判断等方面仍存在不足。为了解决这一问题,研究人员提出了“慢思考推理” (Slow Thinking Reasoning) 的概念。
慢思考推理旨在让模型像人类一样,在解决问题时进行逐步分析、推理和验证,从而提高准确性和可靠性。R1 模型是 DeepMind 提出的一个重要的慢思考推理模型,它通过将问题分解为多个步骤,并利用外部知识和工具进行辅助推理,在数学问题求解等任务上取得了优异表现。
九章云极 DataCanvas 联合团队此次发布的成果,正是对 R1 模型的复现和改进。这标志着国产大模型在慢思考推理技术上迈出了坚实的一步,为未来 AI 发展开辟了新的方向。
R1 复现与改进:从“模仿”到“超越”
九章云极 DataCanvas 联合团队的 R1 复现工作并非简单的“复制”,而是在深入理解 R1 模型原理的基础上,进行了大量的实验和优化。
首先,团队完整开源了类 R1 类的实现细节以及训练技巧,为开发者提供了宝贵的学习资源。其次,团队创新性地提出使用代码工具来增强模型推理性能。代码工具是指可以执行特定任务的程序,例如计算器、搜索引擎等。通过引入代码工具,模型可以在推理过程中利用外部资源,从而提高解决问题的能力。
在 AIME (Artificial Intelligence Mathematical Engine) 数学推理测试中,改进后的模型性能超越了 DeepSeek-R1 的满血版本。AIME 是一个专门用于测试 AI 模型数学推理能力的基准测试,其题目难度较高,对模型的逻辑推理和计算能力提出了很高的要求。九章云极 DataCanvas 联合团队的模型在 AIME 测试中取得的优异成绩,充分证明了其在慢思考推理技术上的突破。
相关成果已经形成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在预印版论文网站 arXiv 上公开发表。这体现了团队开放、透明的科研态度,也为学术界提供了重要的参考。
STILL-3-Tool-32B:强化学习训练模型的全新突破
为了进一步提升模型性能,九章云极 DataCanvas 联合研究团队还发布了全新的强化学习训练模型 STILL-3-Tool-32B。该模型基于长链复杂推理模型训练框架,并采用了强化学习技术进行优化。
强化学习是一种通过奖励和惩罚来训练模型的机器学习方法。在 STILL-3-Tool-32B 的训练过程中,团队设计了合理的奖励函数,引导模型学习如何利用代码工具进行推理,从而提高解决问题的能力。
研究成果显示,该模型在 AIME 2024 基准上取得了 81.70% 的准确率(采样),超越了 DeepSeek-R1 满血版。这一成果表明,通过强化学习训练,可以显著提升大模型的推理性能。
STILL-3-Tool-32B 模型的成功,为大模型训练提供了新的思路。它表明,在已接近性能巅峰的蒸馏模型上,通过强化学习训练也可以大幅提升 AIME 2024 的准确率,这一研究结果将极大促进正在运行中的较大模型的回复长度和推理准确性。
开放全链路工程代码:助力大模型产业化落地
九章云极 DataCanvas 联合团队不仅发布了研究成果,还完整开放了从模型训练到推理部署的全链路工程代码,同步公开实践验证过的技术经验与调优策略,为开发者提供可直接部署的工业化级大模型训练框架。
这一举措具有重要意义。首先,它可以降低大模型研究和应用的门槛,让更多的开发者能够参与到大模型生态中来。其次,它可以加速大模型产业化落地,推动 AI 技术在各个领域的应用。
九章云极 DataCanvas 联合团队的开放精神,值得称赞。在当前大模型技术竞争激烈的背景下,开放合作是推动技术进步的重要途径。通过开放代码、数据和经验,可以促进知识共享和技术创新,从而加速 AI 技术的整体发展。
Alaya NeW 智算操作系统:AI 基础设施的强大支撑
九章云极 DataCanvas 联合团队的研究成果,离不开强大的 AI 基础设施的支持。据了解,STILL-3-Tool-32B 模型是在 DataCanvas Alaya NeW 智算操作系统上完成训练的。
Alaya NeW 智算操作系统是九章云极 DataCanvas 自主研发的一款 AI 基础设施平台。它集成了高性能计算资源、丰富的 AI 工具和完善的开发环境,可以为大模型训练、推理和部署提供全方位的支持。
研究结果显示,Alaya NeW 智算操作系统在开源工具链与基座模型适配、算法与算力协同、逻辑推理与多步决策等复杂任务框架方面表现出明显优势,有望推动 AI 技术的进一步发展。
值得关注的是,DeepSeek 以及蒸馏模型在推理过程中无法调用外部代码工具,而这恰是复现的关键难点。九章云极 DataCanvas 联合团队通过 AI 基础设施深度融合实现突破。研究同步开源了该模型在 DataCanvas Alaya NeW 智算操作系统上完成的全过程完整训练日志、奖励函数代码及容器化部署方案。研究结果公布,在 Alaya NeW 中采用 on-policy 学习策略是成功的关键因素,其将 DeepSeek 背后的基于规则的强化学习方法加以微调,充分探索了相关的超参数设置以及训练技巧。
Alaya NeW 智算操作系统的成功应用,表明 AI 基础设施对于大模型发展至关重要。未来,随着 AI 技术的不断发展,对 AI 基础设施的需求也将越来越高。
挑战与展望:国产大模型走向未来
九章云极 DataCanvas 联合团队在 R1 复现和改进上取得的成果,为国产大模型技术的发展注入了新的活力。然而,我们也应该清醒地认识到,国产大模型在技术、人才、数据等方面仍面临诸多挑战。
首先,在技术方面,国产大模型与国际领先水平仍存在差距。我们需要加大研发投入,突破关键技术,缩小差距。其次,在人才方面,国内 AI 人才储备不足,需要加强人才培养和引进,为大模型发展提供人才保障。最后,在数据方面,高质量的训练数据是提升模型性能的关键。我们需要加强数据采集和标注,构建高质量的数据集。
尽管面临诸多挑战,但我们对国产大模型的未来充满信心。随着国家对 AI 产业的大力支持,以及国内科研人员的不断努力,我们相信国产大模型一定能够取得更大的突破,为经济社会发展做出更大的贡献。
九章云极 DataCanvas 公司专注自动化数据科学平台的持续开发与建设,着重为数据科学家,AI从业者提供一整套开发平台,为政府和企业智能化升级和转型提供全面配套服务。此次联合研究成果的发布,无疑将进一步提升九章云极 DataCanvas 在 AI 领域的影响力,并为国产大模型的发展贡献力量。
参考文献:
- 《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》: https://arxiv.org/pdf/2503.04548
- 开源链接:https://github.com/RUCAIBox/SlowThinkingwith_LLMs
关键词: 大模型,慢思考推理,R1 模型,九章云极 DataCanvas,中国人民大学,北京智源研究院,强化学习,Alaya NeW 智算操作系统,人工智能,AI。
Views: 0