分步思维”策略的具体实践。实际上,人工智能社区在这个领域已探索了数年,这一策略首次在 2022 年 5 月发布的论文《大语言模型是零样本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。OpenAI 发布的《与大语言模型共学推理》(Learning to Reason with LLMs)一文详细阐述了新模型的训练方法,揭示了其能力提升背后的秘密。
文中指出:“我们的大规模强化学习算法精心设计了训练流程,使模型在高效利用数据的同时,能够熟练运用思维链进行深度思考。我们发现,随着强化学习训练时间的增加以及模型在测试时分配更多思考时间,o1 的性能持续显著提升。值得注意的是,这种扩展方法的限制与大语言模型预训练中的挑战有很大不同,我们正继续深入探索这些新界限。”
通过强化学习的训练,o1 不仅学会了优化其思维链的使用,还掌握了自我提升的关键技能。o1 能够识别并纠正错误,将复杂难题拆解为一系列更易处理的子任务。当现有方法失效时,它会尝试不同的方法直至找到最佳解法。这一过程极大提升了模型的推理能力。实际上,这标志着模型在处理复杂提示方面实现了质的飞跃。面对那些需要回溯与深入“思考”的任务时,模型能够展现出更加出色的表现,而不再仅仅依赖于下一个 Token 预测。
威利森指出,虽然他对“推理”一词在大语言模型中的定义有保留,但鉴于 OpenAI 已明确采用此术语,并成功表达了新模型致力于解决的核心问题,他认为这种表达在此情境下是恰当且有效的。
- 来自 API 文档的底层细节
关于新模型及其设计权衡,OpenAI 在 API 文档中提供了许多有趣的细节:对于依赖图像输入、函数调用或追求即时响应速度的应用场景,GPT-4o 及其精简版 GPT-4o mini 仍是理想选择。然而,如果你的项目需要深度推理能力,且能够适应较长的响应时间,那么 o1 模型无疑是更优的选择。
威利森从 OpenAI 的文档中摘录了几个关键点:
- API 访问权限:目前,o1-preview 与 o1-mini 的访问仅限于五级账户用户,且 API 积分累计需达到至少 1,000 美元方可解锁。
- 系统提示限制:模型集成了现有的聊天完成 API,但仅支持用户与助手之间的消息交互,不支持系统提示功能。
- 其他功能限制:当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
- 响应时间:鉴于模型解决问题所需推理量的不同,处理请求的时间可能介于几秒至几分钟不等。
尤为引人注目的是“推理 Token”的引入。这些 Token 在 API 响应中不可见,却扮演着至关重要的角色,是驱动新模型能力的核心,且作为输出 Token 计费并计数。鉴于推理 Token 的重要性,OpenAI 建议为充分利用新模型的提示预留约 25,000 个推理 Token 的预算。为此,输出 Token 的配额显著提升:o1-preview 的配额增至 32,768 个,而 o1-mini 则高达 65,536 个。相比于 GPT-4o 及其 mini 版(两者的配额均为 16,384 个),这一增加为用户提供了更多资源。
API 文档还提供了一个新颖且关键的提示,旨在优化检索增强生成(RAG):在整合附加上下文或文档时,应严格筛选,保留最相关的信息,以避免模型生成过于复杂的响应。这与 RAG 的传统做法截然不同,后者倾向于将大量潜在相关文档纳入提示。
- 隐藏的推理 Token
令人遗憾的是,推理 Token 在 API 调用中处于隐藏状态。用户需要为这些 Token 支付费用,却无法得知其具体内容。OpenAI 对此政策的解释如下:“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由,避免外界干预或操控其推理逻辑。展示模型的完整思维链可能暴露不一致性,并影响用户体验。”这项决策基于多重考量:一方面是为了确保安全与策略的遵从性,另一方面则是为了保持技术上的竞争优势,避免竞争对手利用推理成果进行训练。
作为对大语言模型发展持保留意见的一方,威利森对此决定并不满意。他认为,在追求技术创新的同时,保持可解释性与透明度至关重要。关键细节的隐藏,意味着对透明度的一种削弱,感觉像是一个倒退的举措。
- 示例解读
OpenAI 在“思维链”部分提供了许多示例,包括 Bash 脚本生成、填字游戏解答和化学溶液 pH 值计算等,初步展示了这些模型在 ChatGPT 用户界面下的思维链能力。但它并未展示原始的推理 Token,而是通过一种优化机制,将复杂的
Views: 0