OpenAI发布o1思维链模型：革新AI思考模式

作者智能小编

9 月 18, 2024 #o1, #rebase

最新消息

OpenAI 于 2024 年 9 月12 日发布了两个新的预览模型：o1-preview 和 o1-mini，此前代号为“草莓”。 这些模型并非简单地比 GPT-4o 更强大，而是通过牺牲成本和性能，换取了更强大的“推理”能力。

o1模型的核心是“思维链”训练，即让模型在回答问题之前进行思考。 这是一种类似于“一步一步思考”的技巧，最初在 2022 年 5 月的论文《大型语言模型是零样本推理器》中提出。OpenAI 的文章《学习用 LLM 推理》解释了 o1 模型的训练方式：

\u003e 通过强化学习，o1 学习如何利用其思维链进行有效思考，并优化其策略。它学会识别并纠正错误，将复杂步骤分解成更简单的步骤，并在当前方法无效时尝试不同的方法。这个过程显著提高了模型的推理能力。

这意味着 o1 模型能够更好地处理更复杂的提示，这些提示需要模型进行回溯和“思考”，而不仅仅是预测下一个词。 虽然“推理”这个词在 LLM 的语境下还没有明确的定义，但 OpenAI 坚持使用它来表达这些新模型试图解决的问题。

o1 模型的 API 文档揭示了一些有趣的细节和权衡：

*需要图像输入、函数调用或始终快速响应的应用程序，GPT-4o 和 GPT-4o mini 模型仍然是最佳选择。
* 如果你需要开发需要深度推理且可以容忍更长响应时间的应用程序，o1 模型可能是更好的选择。
* 目前，只有 Tier 5账户才能访问 o1-preview 和 o1-mini 模型的 API，这意味着你至少需要花费 1000 美元在 API 积分上。
* 模型不支持系统提示，只能发送用户和助手消息。
* 也不支持流式传输、工具使用、批量调用或图像输入。
* “根据模型解决问题所需的推理量，这些请求可能需要几秒到几分钟。”
* 最有趣的是引入了“推理令牌”——这些令牌在 API 响应中不可见，但仍然会被计费并计入输出令牌。这些令牌是新功能的关键所在。

OpenAI 建议为受益于新模型的提示分配约 25,000 个推理令牌。 尽管 o1 模型拥有更强大的推理能力，但其高昂的成本和有限的功能使其并非适用于所有场景。对于需要快速响应和低成本的应用，GPT-4o 模型仍然是更合适的选择。

o1 模型的发布标志着 LLM 发展的新阶段，它将推动更强大的推理能力的开发，但也需要我们谨慎地权衡其成本和性能。 随着技术的不断发展，我们期待看到 o1 模型在未来如何改变 LLM 的应用。

>>> Read more <<<