摘要: 中国大模型DeepSeek R1引发全球复现热潮,但训练数据等关键信息未完全公开。Hugging Face领衔的Open R1项目发布OpenR1-Math-220k数据集,旨在补全DeepSeek R1的合成数据缺失,助力开源社区复现DeepSeek R1的强大推理能力。
当中国大模型DeepSeek撕开硅谷的防线,引发全球范围内复现DeepSeek的热潮。DeepSeek-R1虽然开源,但训练数据、训练脚本等关键信息并未完全公布。不过,技术报告相当于拥有着复现R1的指导方针,已经有不少团队用小模型见证了“aha moment”。
在浩浩荡荡的复刻大军中,Hugging Face领衔的Open R1项目尤为瞩目。Open R1 宣称要做到完全开放复现 DeepSeek-R1,补齐 DeepSeek 所有未公开的技术细节。
Open R1 项目启动数周,已经完成了GRPO实现训练与评估代码用于合成数据的生成器。近日,他们发布了 OpenR1-Math-220k 数据集,补全了一块 DeepSeek R1 的关键“碎片”——合成数据。
OpenR1-Math-220k数据集概览
DeepSeek R1 的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek 团队生成了 60 万条推理数据,在 Qwen 和 Llama 等开源模型上证明了这种迁移能力。即使不使用强化学习,直接从 R1 模型进行迁移也能实现强大的推理性能。然而,这些合成数据仅 DeepSeek 可见,未对其他团队开放阅读权限。
OpenR1-Math-220k 数据集正是为了弥补这一缺口。Open R1 团队使用 DeepSeek R1 生成了 80 万条推理轨迹,经过筛选和验证后得到了 22 万条高质量数据。这些数据可以用来支持更小的模型,使其达到媲美 DeepSeek R1 的效果。例如,在 OpenR1-Math-220k 数据集上训练出来的 Qwen-7B-Math-Instruct,达到了与 DeepSeek-Distill-Qwen-7B 相当的性能。
OpenR1-Math-220k数据集的特点
Open R1 团队与 NuminaMath-CoT 数据集开发团队 Numina 合作,整理了 OpenR1-Math-220k 数据集。与现有数据集相比,该数据集具有以下特点:
- 80 万条 R1 推理轨迹: 使用 DeepSeek R1 为 40 万个问题各生成了两个答案,最终经过筛选后保留了 22 万个具有正确推理轨迹的问题。
- 本地运行 512 个 H100: 没有依赖 API,而是在计算集群上利用 vLLM 和 SGLang 本地运行生成任务,每天可以生成 18 万条推理轨迹。
- 基于 NuminaMath 1.5: 专注于数学推理公式,为 NuminaMath 1.5(NuminaMath-CoT 数据集的改进版本)中的问题生成答案。
- 自动过滤: Open R1 团队通过数学验证,只保留至少有一个正确答案的问题,还让 Llama3.3-70B-Instruct 作为“判官”,以筛选出更多正确的样本,特别是那些因格式错误而无法通过基于规则的解析器验证的答案。
数据集结构
数据集分为两个部分:
- default(94k 问题): 这部分数据在经过监督微调(SFT)后表现最佳。
- extended(131k 问题): 这部分数据包含额外的 NuminaMath 1.5 数据源,例如 cn_k12,提供了更多的推理公式。(研究发现这个子集在经过监督微调后的性能低于默认数据集,可能是因为 cn_k12 中的问题相对简单。)
数据生成过程
为了构建数据集,OpenR1 团队让 DeepSeek R1 为来自 NuminaMath 1.5 的 40 万个问题生成答案。他们遵循了 DeepSeek 技术报告中推荐的参数设置,并在提示词前添加了以下指令:Please reason step by step, and put your final answer within \boxed{}.
为了确保生成过程的高效性,团队将每次生成的 tokens 限制设置为 16k。
Open R1 团队表示,希望这个可扩展的、高质量的推理数据生成过程,能够启发代码生成等数学之外的领域。
结论与展望
OpenR1-Math-220k数据集的发布,是开源社区在大模型复现道路上迈出的重要一步。它不仅为研究人员提供了高质量的数学推理数据,也为其他领域的合成数据生成提供了借鉴。随着更多开源力量的加入,我们有理由相信,DeepSeek R1 的复现将不再遥远,开源大模型生态将迎来更加繁荣的未来。
Views: 0