Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 中国大模型DeepSeek R1引发全球复现热潮,但训练数据等关键信息未完全公开。Hugging Face领衔的Open R1项目发布OpenR1-Math-220k数据集,旨在补全DeepSeek R1的合成数据缺失,助力开源社区复现DeepSeek R1的强大推理能力。

当中国大模型DeepSeek撕开硅谷的防线,引发全球范围内复现DeepSeek的热潮。DeepSeek-R1虽然开源,但训练数据、训练脚本等关键信息并未完全公布。不过,技术报告相当于拥有着复现R1的指导方针,已经有不少团队用小模型见证了“aha moment”。

在浩浩荡荡的复刻大军中,Hugging Face领衔的Open R1项目尤为瞩目。Open R1 宣称要做到完全开放复现 DeepSeek-R1,补齐 DeepSeek 所有未公开的技术细节。

Open R1 项目启动数周,已经完成了GRPO实现训练与评估代码用于合成数据的生成器。近日,他们发布了 OpenR1-Math-220k 数据集,补全了一块 DeepSeek R1 的关键“碎片”——合成数据。

OpenR1-Math-220k数据集概览

DeepSeek R1 的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek 团队生成了 60 万条推理数据,在 Qwen 和 Llama 等开源模型上证明了这种迁移能力。即使不使用强化学习,直接从 R1 模型进行迁移也能实现强大的推理性能。然而,这些合成数据仅 DeepSeek 可见,未对其他团队开放阅读权限。

OpenR1-Math-220k 数据集正是为了弥补这一缺口。Open R1 团队使用 DeepSeek R1 生成了 80 万条推理轨迹,经过筛选和验证后得到了 22 万条高质量数据。这些数据可以用来支持更小的模型,使其达到媲美 DeepSeek R1 的效果。例如,在 OpenR1-Math-220k 数据集上训练出来的 Qwen-7B-Math-Instruct,达到了与 DeepSeek-Distill-Qwen-7B 相当的性能。

OpenR1-Math-220k数据集的特点

Open R1 团队与 NuminaMath-CoT 数据集开发团队 Numina 合作,整理了 OpenR1-Math-220k 数据集。与现有数据集相比,该数据集具有以下特点:

  • 80 万条 R1 推理轨迹: 使用 DeepSeek R1 为 40 万个问题各生成了两个答案,最终经过筛选后保留了 22 万个具有正确推理轨迹的问题。
  • 本地运行 512 个 H100: 没有依赖 API,而是在计算集群上利用 vLLM 和 SGLang 本地运行生成任务,每天可以生成 18 万条推理轨迹。
  • 基于 NuminaMath 1.5: 专注于数学推理公式,为 NuminaMath 1.5(NuminaMath-CoT 数据集的改进版本)中的问题生成答案。
  • 自动过滤: Open R1 团队通过数学验证,只保留至少有一个正确答案的问题,还让 Llama3.3-70B-Instruct 作为“判官”,以筛选出更多正确的样本,特别是那些因格式错误而无法通过基于规则的解析器验证的答案。

数据集结构

数据集分为两个部分:

  • default(94k 问题): 这部分数据在经过监督微调(SFT)后表现最佳。
  • extended(131k 问题): 这部分数据包含额外的 NuminaMath 1.5 数据源,例如 cn_k12,提供了更多的推理公式。(研究发现这个子集在经过监督微调后的性能低于默认数据集,可能是因为 cn_k12 中的问题相对简单。)

数据生成过程

为了构建数据集,OpenR1 团队让 DeepSeek R1 为来自 NuminaMath 1.5 的 40 万个问题生成答案。他们遵循了 DeepSeek 技术报告中推荐的参数设置,并在提示词前添加了以下指令:Please reason step by step, and put your final answer within \boxed{}. 为了确保生成过程的高效性,团队将每次生成的 tokens 限制设置为 16k。

Open R1 团队表示,希望这个可扩展的、高质量的推理数据生成过程,能够启发代码生成等数学之外的领域。

结论与展望

OpenR1-Math-220k数据集的发布,是开源社区在大模型复现道路上迈出的重要一步。它不仅为研究人员提供了高质量的数学推理数据,也为其他领域的合成数据生成提供了借鉴。随着更多开源力量的加入,我们有理由相信,DeepSeek R1 的复现将不再遥远,开源大模型生态将迎来更加繁荣的未来。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注