Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 近日,360智脑宣布开源其最新研发的长思维链推理模型Light-R1,该模型专注于数学领域,并在AIME24测试中取得了显著超越DeepSeek-R1-Distill的成绩,引发了AI社区的广泛关注。更令人瞩目的是,Light-R1的训练成本极低,仅需约1000美元,为低成本训练领域专精模型提供了新的可能性。

Light-R1:数学推理的新星

Light-R1是基于Qwen2.5-32B-Instruct模型,通过7万条数学数据和两阶段课程学习(SFT+DPO)训练而成。在著名的AIME24数学竞赛测试中,Light-R1取得了76.6分,超越了DeepSeek-R1-Distill的72.6分,证明了其在数学推理方面的卓越能力。

360智脑选择开源Light-R1,旨在推动开源社区的发展,并为低成本训练领域专精模型提供参考。该模型支持全量开源,包括模型、数据集、训练框架和评测代码,体现了360智脑拥抱开源、回馈社区的决心。

技术解析:低成本高性能的秘诀

Light-R1的成功并非偶然,其背后蕴藏着精巧的技术设计和优化:

  • 基础模型与起点: 基于Qwen2.5-32B-Instruct,避免了从零开始的漫长过程,直接站在了巨人的肩膀上。
  • 课程学习: 采用SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)相结合的课程学习方法。SFT通过筛选难度分级的数据进行有监督的微调,而DPO则基于多次采样和偏好对的构建,优化模型的输出质量。
  • 数据处理与去重: 训练数据来自多个开源数学数据集,经过严格的数据去重处理,避免测试数据泄露对模型性能的影响。
  • 模型融合: Light-R1-32B是融合SFT阶段2、DPO和另一个DPO版本的模型得到的,进一步提升了模型的性能和稳定性。
  • 训练框架与优化: 采用360-LLaMA-Factory训练框架,支持序列并行和高效的分布式训练。优化后的训练流程使得Light-R1在12台H800机器上仅需6小时即可完成训练。

这些技术手段的综合运用,使得Light-R1能够在极低的成本下实现高性能,为资源有限的用户或企业快速部署和应用提供了可能。

应用场景:赋能教育、科研和企业

Light-R1的应用前景广阔,可以赋能多个领域:

  • 教育领域: 作为数学学习工具,帮助学生解决复杂问题,提供解题步骤和思路,适用于数学竞赛和日常学习。
  • 科研与学术: 辅助数学研究和跨学科问题解决,例如物理建模、工程优化等。
  • 企业应用: 用于数据分析、风险评估、供应链优化等复杂问题的解决。
  • 软件集成: 集成到智能助手、数学软件中,增强推理和解题功能。
  • 开源与开发者: 支持开发者定制和扩展模型,推动开源社区发展。

开源地址:

结语:开源推动AI发展,Light-R1点亮未来

360智脑开源Light-R1模型,不仅展示了其在AI技术方面的实力,更体现了其对开源社区的贡献和担当。Light-R1的低成本、高性能特性,将为更多开发者和企业提供使用AI技术的机会,推动AI在各个领域的应用和发展。

随着AI技术的不断进步和开源生态的日益繁荣,我们有理由相信,未来的AI将更加智能、高效、普惠,为人类社会带来更大的福祉。Light-R1的开源,无疑是这一进程中的一颗闪亮之星。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注