360智脑开源Light-R1：长程推理新突破

北京 – 近日，360智脑宣布开源其最新研发的长思维链推理模型Light-R1，该模型专注于数学领域，并在AIME24测试中取得了显著超越DeepSeek-R1-Distill的成绩，引发了AI社区的广泛关注。更令人瞩目的是，Light-R1的训练成本极低，仅需约1000美元，为低成本训练领域专精模型提供了新的可能性。

Light-R1：数学推理的新星

Light-R1是基于Qwen2.5-32B-Instruct模型，通过7万条数学数据和两阶段课程学习（SFT+DPO）训练而成。在著名的AIME24数学竞赛测试中，Light-R1取得了76.6分，超越了DeepSeek-R1-Distill的72.6分，证明了其在数学推理方面的卓越能力。

360智脑选择开源Light-R1，旨在推动开源社区的发展，并为低成本训练领域专精模型提供参考。该模型支持全量开源，包括模型、数据集、训练框架和评测代码，体现了360智脑拥抱开源、回馈社区的决心。

技术解析：低成本高性能的秘诀

Light-R1的成功并非偶然，其背后蕴藏着精巧的技术设计和优化：

基础模型与起点： 基于Qwen2.5-32B-Instruct，避免了从零开始的漫长过程，直接站在了巨人的肩膀上。
课程学习： 采用SFT（Supervised Fine-Tuning）和DPO（Direct Preference Optimization）相结合的课程学习方法。SFT通过筛选难度分级的数据进行有监督的微调，而DPO则基于多次采样和偏好对的构建，优化模型的输出质量。
数据处理与去重： 训练数据来自多个开源数学数据集，经过严格的数据去重处理，避免测试数据泄露对模型性能的影响。
模型融合： Light-R1-32B是融合SFT阶段2、DPO和另一个DPO版本的模型得到的，进一步提升了模型的性能和稳定性。
训练框架与优化： 采用360-LLaMA-Factory训练框架，支持序列并行和高效的分布式训练。优化后的训练流程使得Light-R1在12台H800机器上仅需6小时即可完成训练。

这些技术手段的综合运用，使得Light-R1能够在极低的成本下实现高性能，为资源有限的用户或企业快速部署和应用提供了可能。

应用场景：赋能教育、科研和企业

Light-R1的应用前景广阔，可以赋能多个领域：

教育领域： 作为数学学习工具，帮助学生解决复杂问题，提供解题步骤和思路，适用于数学竞赛和日常学习。
科研与学术： 辅助数学研究和跨学科问题解决，例如物理建模、工程优化等。
企业应用： 用于数据分析、风险评估、供应链优化等复杂问题的解决。
软件集成： 集成到智能助手、数学软件中，增强推理和解题功能。
开源与开发者： 支持开发者定制和扩展模型，推动开源社区发展。

开源地址：

GitHub仓库：https://github.com/Qihoo360/Light-R1
HuggingFace模型库：https://huggingface.co/collections/qihoo360/light-r1

结语：开源推动AI发展，Light-R1点亮未来

360智脑开源Light-R1模型，不仅展示了其在AI技术方面的实力，更体现了其对开源社区的贡献和担当。Light-R1的低成本、高性能特性，将为更多开发者和企业提供使用AI技术的机会，推动AI在各个领域的应用和发展。

随着AI技术的不断进步和开源生态的日益繁荣，我们有理由相信，未来的AI将更加智能、高效、普惠，为人类社会带来更大的福祉。Light-R1的开源，无疑是这一进程中的一颗闪亮之星。

参考文献：

Qihoo360. (2024). Light-R1 GitHub Repository. Retrieved from https://github.com/Qihoo360/Light-R1
Qihoo360. (2024). Light-R1 Hugging Face Collection. Retrieved from https://huggingface.co/collections/qihoo360/light-r1

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

360智脑开源Light-R1：长程推理新突破

作者智能小编

相关文章

Day.ai：HubSpot CPO再战AI CRM，红杉押注！

D1技术突破：全球数据一致性复制成真

US Tariff Stick How Much Pain for European and American Automakers?

发表回复取消回复

为您推荐