Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代的黄河路
0

北京报道 – 在人工智能领域,大模型如同雨后春笋般涌现,但训练成本高昂一直是制约其发展的瓶颈。近日,360智脑开源了其最新成果——Light-R1,一款专注于数学领域长思维链推理的模型,以极低的成本实现了超越同类产品的性能,为AI模型的平民化发展带来了新的可能性。

Light-R1:数学推理的新星

Light-R1的核心竞争力在于其在数学问题解决上的高效性和准确性。该模型基于Qwen2.5-32B-Instruct,通过7万条数学数据和两阶段课程学习(SFT+DPO)训练,在AIME24测试中取得了76.6分的优异成绩,超越了DeepSeek-R1-Distill的72.6分。更令人瞩目的是,Light-R1的训练成本仅为约1000美元,只需12台H800机器运行6小时即可完成。

技术解析:低成本高性能的秘诀

Light-R1的成功并非偶然,其背后蕴藏着一系列精巧的技术策略:

  • 课程学习(Curriculum Learning): Light-R1采用了两阶段课程学习,先用7万条数据进行有监督微调(SFT),再筛选出难度最高的3千条数据进行深度微调,从而使模型能够逐步掌握更复杂的数学知识。
  • 直接偏好优化(Direct Preference Optimization, DPO): 在SFT的基础上,Light-R1通过多次采样和偏好对的构建,优化模型的输出质量,使其能够更准确地解决问题。
  • 数据去重与模型融合: Light-R1的训练数据来自多个开源数学数据集,经过严格的数据去重处理,避免了测试数据泄露对模型性能的影响。同时,模型融合了SFT阶段2、DPO和另一个DPO版本的模型,进一步提升了模型的性能和稳定性。
  • 高效训练框架: Light-R1采用了360-LLaMA-Factory训练框架,支持序列并行和高效的分布式训练,使其能够在有限的资源下快速完成训练。

开源共享:推动AI社区发展

360智脑选择将Light-R1全量开源,包括模型、数据集、训练框架和评测代码,这一举措无疑将极大地推动开源社区的发展。开发者可以基于Light-R1进行二次开发,定制和扩展模型,从而在教育、科研、企业应用等领域创造更多的价值。

应用前景:赋能各行各业

Light-R1的应用前景十分广阔:

  • 教育领域: Light-R1可以作为数学学习工具,帮助学生解决复杂问题,提供解题步骤和思路,适用于数学竞赛和日常学习。
  • 科研与学术: Light-R1可以辅助数学研究和跨学科问题解决,例如物理建模、工程优化等。
  • 企业应用: Light-R1可以用于数据分析、风险评估、供应链优化等复杂问题的解决。
  • 软件集成: Light-R1可以集成到智能助手、数学软件中,增强推理和解题功能。

挑战与展望

尽管Light-R1在数学推理领域取得了显著的进展,但其在其他领域的泛化能力仍有待提升。未来,研究人员可以探索如何将Light-R1的成功经验应用到其他领域,开发出更多低成本、高性能的AI模型。

Light-R1的开源,不仅为AI开发者提供了宝贵的资源,也为AI模型的平民化发展指明了方向。随着技术的不断进步,我们有理由相信,AI将在更多领域发挥重要作用,为人类社会带来更大的福祉。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注