中国AI崛起：DeepSeek数据开源引爆新浪潮

摘要： 中国大模型DeepSeek R1引发全球复现热潮，但训练数据等关键信息未完全公开。Hugging Face领衔的Open R1项目发布OpenR1-Math-220k数据集，旨在补全DeepSeek R1的合成数据缺失，助力开源社区复现DeepSeek R1的强大推理能力。

当中国大模型DeepSeek撕开硅谷的防线，引发全球范围内复现DeepSeek的热潮。DeepSeek-R1虽然开源，但训练数据、训练脚本等关键信息并未完全公布。不过，技术报告相当于拥有着复现R1的指导方针，已经有不少团队用小模型见证了“aha moment”。

在浩浩荡荡的复刻大军中，Hugging Face领衔的Open R1项目尤为瞩目。Open R1 宣称要做到完全开放复现 DeepSeek-R1，补齐 DeepSeek 所有未公开的技术细节。

Open R1 项目启动数周，已经完成了GRPO实现训练与评估代码用于合成数据的生成器。近日，他们发布了 OpenR1-Math-220k 数据集，补全了一块 DeepSeek R1 的关键“碎片”——合成数据。

OpenR1-Math-220k数据集概览

数据集链接：https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

DeepSeek R1 的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek 团队生成了 60 万条推理数据，在 Qwen 和 Llama 等开源模型上证明了这种迁移能力。即使不使用强化学习，直接从 R1 模型进行迁移也能实现强大的推理性能。然而，这些合成数据仅 DeepSeek 可见，未对其他团队开放阅读权限。

OpenR1-Math-220k 数据集正是为了弥补这一缺口。Open R1 团队使用 DeepSeek R1 生成了 80 万条推理轨迹，经过筛选和验证后得到了 22 万条高质量数据。这些数据可以用来支持更小的模型，使其达到媲美 DeepSeek R1 的效果。例如，在 OpenR1-Math-220k 数据集上训练出来的 Qwen-7B-Math-Instruct，达到了与 DeepSeek-Distill-Qwen-7B 相当的性能。

OpenR1-Math-220k数据集的特点

Open R1 团队与 NuminaMath-CoT 数据集开发团队 Numina 合作，整理了 OpenR1-Math-220k 数据集。与现有数据集相比，该数据集具有以下特点：

80 万条 R1 推理轨迹： 使用 DeepSeek R1 为 40 万个问题各生成了两个答案，最终经过筛选后保留了 22 万个具有正确推理轨迹的问题。
本地运行 512 个 H100： 没有依赖 API，而是在计算集群上利用 vLLM 和 SGLang 本地运行生成任务，每天可以生成 18 万条推理轨迹。
基于 NuminaMath 1.5： 专注于数学推理公式，为 NuminaMath 1.5（NuminaMath-CoT 数据集的改进版本）中的问题生成答案。
自动过滤： Open R1 团队通过数学验证，只保留至少有一个正确答案的问题，还让 Llama3.3-70B-Instruct 作为“判官”，以筛选出更多正确的样本，特别是那些因格式错误而无法通过基于规则的解析器验证的答案。

数据集结构

数据集分为两个部分：

default（94k 问题）： 这部分数据在经过监督微调（SFT）后表现最佳。
extended（131k 问题）： 这部分数据包含额外的 NuminaMath 1.5 数据源，例如 cn_k12，提供了更多的推理公式。（研究发现这个子集在经过监督微调后的性能低于默认数据集，可能是因为 cn_k12 中的问题相对简单。）

数据生成过程

为了构建数据集，OpenR1 团队让 DeepSeek R1 为来自 NuminaMath 1.5 的 40 万个问题生成答案。他们遵循了 DeepSeek 技术报告中推荐的参数设置，并在提示词前添加了以下指令：Please reason step by step, and put your final answer within \boxed{}. 为了确保生成过程的高效性，团队将每次生成的 tokens 限制设置为 16k。

Open R1 团队表示，希望这个可扩展的、高质量的推理数据生成过程，能够启发代码生成等数学之外的领域。

结论与展望

OpenR1-Math-220k数据集的发布，是开源社区在大模型复现道路上迈出的重要一步。它不仅为研究人员提供了高质量的数学推理数据，也为其他领域的合成数据生成提供了借鉴。随着更多开源力量的加入，我们有理由相信，DeepSeek R1 的复现将不再遥远，开源大模型生态将迎来更加繁荣的未来。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

中国AI崛起：DeepSeek数据开源引爆新浪潮

作者智能小编

相关文章

Next.js Apps Soar Deploying on Cloudflare Workers with New Adapter

Next.js拥抱Cloudflare，部署新选择！

Manim：UI动画新利器，惊艳视觉呈现

发表回复取消回复

为您推荐