70亿参数开源数学大模型DeepSeek-Prover-V1.5横空出世

开源数学大模型 DeepSeek-Prover-V1.5 引领数学研究新篇章

近日，DeepSeek团队发布了一款具有70亿参数的开源数学大模型——DeepSeek-Prover-V1.5。该模型在数学定理证明领域取得了显著的效率和准确性提升，为数学研究开启了“大数学”时代。

DeepSeek-Prover-V1.5 是由 DeepSeek 团队开发的开源数学大模型，拥有70亿参数。该模型通过结合强化学习（RLPAF）和蒙特卡洛树搜索（特别是RMaxTS变体），在高中和大学级别的数学问题上，表现超越了其他所有开源模型，创造了新的最先进水平（SOTA）。

预训练（Pre-training）：DeepSeek-Prover-V1.5 在数学和代码数据上进行了进一步的预训练，专注于 Lean、Isabelle 和 Metamath 等形式化数学语言，以增强模型在形式化定理证明和数学推理方面的能力。
监督微调（Supervised Fine-tuning）：使用特定的数据增强技术，包括在 Lean 4 代码旁边添加自然语言的思维链注释，以及在证明代码中插入中间策略状态信息，以此来提高模型对自然语言和形式化证明之间一致性的理解。
强化学习（Reinforcement Learning）：采用 GRPO 算法进行基于证明助手反馈的强化学习，利用 Lean 证明器的验证结果作为奖励信号，进一步优化模型，使其与形式化验证系统的要求更加一致。
蒙特卡洛树搜索（Monte-Carlo Tree Search, MCTS）：引入了一种新的树搜索方法，通过截断和重新开始机制，将不完整的证明分解为树节点序列，并利用这些节点继续证明生成过程。
内在奖励驱动的探索（Intrinsic Rewards for Exploration）：通过 RMaxTS 算法，DeepSeek-Prover-V1.5 使用内在奖励来驱动探索行为，鼓励模型生成多样化的证明路径，解决证明搜索中的奖励稀疏问题。

DeepSeek-Prover-V1.5 的发布，不仅为数学研究提供了强大的工具，也为教育、软件开发等领域带来了新的可能性。随着人工智能技术的不断发展，我们有理由相信，DeepSeek-Prover-V1.5 将引领数学研究进入一个全新的时代。