摘要: 近期,人工智能领域迎来了一股新的浪潮——推理模型。从 OpenAI 的 o1-mini 到 DeepSeek-R1,这些模型展现了超越传统大型语言模型(LLM)的强大问题解决能力。本文深入剖析了推理模型的发展历程、核心技术以及与标准 LLM 的关键区别,揭示了其在 AI 发展中的重要意义。
北京 – 自 OpenAI 发布 o1-mini 模型以来,推理模型便成为 AI 社区关注的焦点。春节期间,开放式推理模型 DeepSeek-R1 的问世更是将这一热度推向了前所未有的高峰。Netflix 资深研究科学家 Cameron R. Wolfe 近日发表了一篇题为《揭秘推理模型》的深度长文,详细梳理了自 o1-mini 至今的推理模型发展史,并深入介绍了将标准 LLM 转化为推理模型的具体技术和方法。
LLM 的传统范式:预训练与对齐
在过去几年里,大型语言模型(LLM)的训练流程已相对固化。首先,在海量的互联网文本数据上进行预训练,使模型掌握语言的基本规律。随后,通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术,对模型进行对齐,使其输出更符合人类的偏好。
尽管预训练和对齐对模型质量至关重要,但驱动这一范式发展的核心动力来自于 Scaling Law,即通过使用更多数据训练更大的模型来获得更好的结果。
推理模型的崛起:超越标准 LLM 的问题解决能力
与标准 LLM 不同,推理模型在解决问题时会进行“思考”。它们不是直接给出答案,而是会花费时间分解问题、检测思维中的错误、探索替代解决方案。训练能够有效思考的模型需要新的策略,通常涉及大规模强化学习(RL)。
OpenAI 最早提出的 o1-preview 模型及其后续的蒸馏版本,如 o1-mini 和 o3 的变体,展示了推理模型在解决可验证任务(如数学和编程)方面的卓越能力。谷歌的 Gemini 2.0 Flash Thinking 也加入了这一行列。
长思维链:推理模型的核心特征
推理模型与标准 LLM 的主要区别在于其“长思维链”。在回答问题之前,推理模型会生成一系列的思考步骤,这些步骤被称为推理迹线或轨迹。这些推理轨迹表现出类似于搜索算法的特性,例如:
- 仔细考虑复杂问题的每个部分。
- 将复杂问题分解为更小的可解决部分。
- 批评自身的(部分)解决方案并发现错误。
- 探索许多替代解决方案。
OpenAI 的推理模型将长思维链隐藏在内部,用户只能看到模型编写的摘要。这种机制为控制 LLM 的推理时间计算提供了一种简单的方法。更复杂的问题可以使用更长的思维链来解决,而简单的问题则可以使用较短的思维链来节省计算资源。
性能飞跃:o1 系列模型与 GPT-4o 的对比
最初的推理模型在某些方面不如标准 LLM,但它们将 LLM 的推理能力提升了数个数量级。例如,o1-preview 的推理表现始终优于 GPT-4o,甚至在大多数复杂推理任务上能与人类专家相媲美。
OpenAI 的 o1 模型在美国数学奥林匹克资格考试(AIME 2024)中名列前 500 名,在 Codeforces 上排名在竞赛人类程序员的第 11 个百分位之内。相比之下,GPT-4o 仅解决了 12% 的 AIME 问题,而 o1 解决了 74% 到 93% 的问题,具体取决于推理设置。
结论与展望
推理模型的出现标志着 AI 领域的一次重要突破。它们不仅在解决复杂问题方面表现出色,还为 LLM 的发展开辟了新的方向。随着技术的不断进步,我们有理由相信,推理模型将在未来的 AI 应用中发挥越来越重要的作用。
参考文献:
- Cameron R. Wolfe. Demystifying Reasoning Models. https://cameronrwolfe.substack.com/p/demystifying-reasoning-models
- OpenAI. Learning to Reason with LLMs. https://openai.com/index/learning-to-reason-with-llms/
致谢:
感谢机器之心对本文的编译和整理,以及 Cameron R. Wolfe 提供的深入分析。
Views: 0