OpenAI Unveils Cost-Effective o1 Models o1-preview and o1-mini

分步思维”策略的具体实践。实际上，人工智能社区在这个领域已探索了数年，这一策略首次在 2022 年 5 月发布的论文《大语言模型是零样本推理器》（Large Language Models are Zero-Shot Reasoners）中提出。OpenAI 发布的《与大语言模型共学推理》（Learning to Reason with LLMs）一文详细阐述了新模型的训练方法，揭示了其能力提升背后的秘密。

文中指出：“我们的大规模强化学习算法精心设计了训练流程，使模型在高效利用数据的同时，能够熟练运用思维链进行深度思考。我们发现，随着强化学习训练时间的增加以及模型在测试时分配更多思考时间，o1 的性能持续显著提升。值得注意的是，这种扩展方法的限制与大语言模型预训练中的挑战有很大不同，我们正继续深入探索这些新界限。”

通过强化学习的训练，o1 不仅学会了优化其思维链的使用，还掌握了自我提升的关键技能。o1 能够识别并纠正错误，将复杂难题拆解为一系列更易处理的子任务。当现有方法失效时，它会尝试不同的方法直至找到最佳解法。这一过程极大提升了模型的推理能力。实际上，这标志着模型在处理复杂提示方面实现了质的飞跃。面对那些需要回溯与深入“思考”的任务时，模型能够展现出更加出色的表现，而不再仅仅依赖于下一个 Token 预测。

威利森指出，虽然他对“推理”一词在大语言模型中的定义有保留，但鉴于 OpenAI 已明确采用此术语，并成功表达了新模型致力于解决的核心问题，他认为这种表达在此情境下是恰当且有效的。

来自 API 文档的底层细节

关于新模型及其设计权衡，OpenAI 在 API 文档中提供了许多有趣的细节：对于依赖图像输入、函数调用或追求即时响应速度的应用场景，GPT-4o 及其精简版 GPT-4o mini 仍是理想选择。然而，如果你的项目需要深度推理能力，且能够适应较长的响应时间，那么 o1 模型无疑是更优的选择。

威利森从 OpenAI 的文档中摘录了几个关键点：

API 访问权限：目前，o1-preview 与 o1-mini 的访问仅限于五级账户用户，且 API 积分累计需达到至少 1,000 美元方可解锁。
系统提示限制：模型集成了现有的聊天完成 API，但仅支持用户与助手之间的消息交互，不支持系统提示功能。
其他功能限制：当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
响应时间：鉴于模型解决问题所需推理量的不同，处理请求的时间可能介于几秒至几分钟不等。

尤为引人注目的是“推理 Token”的引入。这些 Token 在 API 响应中不可见，却扮演着至关重要的角色，是驱动新模型能力的核心，且作为输出 Token 计费并计数。鉴于推理 Token 的重要性，OpenAI 建议为充分利用新模型的提示预留约 25,000 个推理 Token 的预算。为此，输出 Token 的配额显著提升：o1-preview 的配额增至 32,768 个，而 o1-mini 则高达 65,536 个。相比于 GPT-4o 及其 mini 版（两者的配额均为 16,384 个），这一增加为用户提供了更多资源。

API 文档还提供了一个新颖且关键的提示，旨在优化检索增强生成（RAG）：在整合附加上下文或文档时，应严格筛选，保留最相关的信息，以避免模型生成过于复杂的响应。这与 RAG 的传统做法截然不同，后者倾向于将大量潜在相关文档纳入提示。

隐藏的推理 Token

令人遗憾的是，推理 Token 在 API 调用中处于隐藏状态。用户需要为这些 Token 支付费用，却无法得知其具体内容。OpenAI 对此政策的解释如下：“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由，避免外界干预或操控其推理逻辑。展示模型的完整思维链可能暴露不一致性，并影响用户体验。”这项决策基于多重考量：一方面是为了确保安全与策略的遵从性，另一方面则是为了保持技术上的竞争优势，避免竞争对手利用推理成果进行训练。

作为对大语言模型发展持保留意见的一方，威利森对此决定并不满意。他认为，在追求技术创新的同时，保持可解释性与透明度至关重要。关键细节的隐藏，意味着对透明度的一种削弱，感觉像是一个倒退的举措。

示例解读

OpenAI 在“思维链”部分提供了许多示例，包括 Bash 脚本生成、填字游戏解答和化学溶液 pH 值计算等，初步展示了这些模型在 ChatGPT 用户界面下的思维链能力。但它并未展示原始的推理 Token，而是通过一种优化机制，将复杂的

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

OpenAI Unveils Cost-Effective o1 Models o1-preview and o1-mini

作者智能小编

相关文章

AI优先：新闻业巨头集体转向？

GPT-4o Makes WeChat Stickers a Breeze No Photoshop Skills Needed!

张一鸣“点金”，河北女首富身家飙升至425亿

发表回复取消回复

为您推荐