Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 近期,人工智能领域迎来了一股新的浪潮——推理模型。从 OpenAI 的 o1-mini 到 DeepSeek-R1,这些模型展现了超越传统大型语言模型(LLM)的强大问题解决能力。本文深入剖析了推理模型的发展历程、核心技术以及与标准 LLM 的关键区别,揭示了其在 AI 发展中的重要意义。

北京 – 自 OpenAI 发布 o1-mini 模型以来,推理模型便成为 AI 社区关注的焦点。春节期间,开放式推理模型 DeepSeek-R1 的问世更是将这一热度推向了前所未有的高峰。Netflix 资深研究科学家 Cameron R. Wolfe 近日发表了一篇题为《揭秘推理模型》的深度长文,详细梳理了自 o1-mini 至今的推理模型发展史,并深入介绍了将标准 LLM 转化为推理模型的具体技术和方法。

LLM 的传统范式:预训练与对齐

在过去几年里,大型语言模型(LLM)的训练流程已相对固化。首先,在海量的互联网文本数据上进行预训练,使模型掌握语言的基本规律。随后,通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术,对模型进行对齐,使其输出更符合人类的偏好。

尽管预训练和对齐对模型质量至关重要,但驱动这一范式发展的核心动力来自于 Scaling Law,即通过使用更多数据训练更大的模型来获得更好的结果。

推理模型的崛起:超越标准 LLM 的问题解决能力

与标准 LLM 不同,推理模型在解决问题时会进行“思考”。它们不是直接给出答案,而是会花费时间分解问题、检测思维中的错误、探索替代解决方案。训练能够有效思考的模型需要新的策略,通常涉及大规模强化学习(RL)。

OpenAI 最早提出的 o1-preview 模型及其后续的蒸馏版本,如 o1-mini 和 o3 的变体,展示了推理模型在解决可验证任务(如数学和编程)方面的卓越能力。谷歌的 Gemini 2.0 Flash Thinking 也加入了这一行列。

长思维链:推理模型的核心特征

推理模型与标准 LLM 的主要区别在于其“长思维链”。在回答问题之前,推理模型会生成一系列的思考步骤,这些步骤被称为推理迹线或轨迹。这些推理轨迹表现出类似于搜索算法的特性,例如:

  • 仔细考虑复杂问题的每个部分。
  • 将复杂问题分解为更小的可解决部分。
  • 批评自身的(部分)解决方案并发现错误。
  • 探索许多替代解决方案。

OpenAI 的推理模型将长思维链隐藏在内部,用户只能看到模型编写的摘要。这种机制为控制 LLM 的推理时间计算提供了一种简单的方法。更复杂的问题可以使用更长的思维链来解决,而简单的问题则可以使用较短的思维链来节省计算资源。

性能飞跃:o1 系列模型与 GPT-4o 的对比

最初的推理模型在某些方面不如标准 LLM,但它们将 LLM 的推理能力提升了数个数量级。例如,o1-preview 的推理表现始终优于 GPT-4o,甚至在大多数复杂推理任务上能与人类专家相媲美。

OpenAI 的 o1 模型在美国数学奥林匹克资格考试(AIME 2024)中名列前 500 名,在 Codeforces 上排名在竞赛人类程序员的第 11 个百分位之内。相比之下,GPT-4o 仅解决了 12% 的 AIME 问题,而 o1 解决了 74% 到 93% 的问题,具体取决于推理设置。

结论与展望

推理模型的出现标志着 AI 领域的一次重要突破。它们不仅在解决复杂问题方面表现出色,还为 LLM 的发展开辟了新的方向。随着技术的不断进步,我们有理由相信,推理模型将在未来的 AI 应用中发挥越来越重要的作用。

参考文献:

致谢:

感谢机器之心对本文的编译和整理,以及 Cameron R. Wolfe 提供的深入分析。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注