OpenAI新模型O1亮相：GPT-4升级版？性能与成本双突破！

近日，科技界巨头OpenAI宣布推出两款新型人工智能模型——o1-preview与o1-mini。这两款模型在技术上有许多值得深入探讨的内容。人工智能专家西蒙·威利森（Simon Willison）对这两个新模型进行了深入剖析，揭示了它们在技术上的独特优势与不足。

威利森指出，o1并非简单的GPT-4o直接升级版，而是在强化“推理”能力的同时，做出了成本与性能上的权衡。

一、训练思维链
OpenAI在声明中表示，他们研发了一系列新型人工智能模型，旨在让模型在做出响应前花更多时间思考。这些新模型可以视为思维链提示策略的深化拓展——“分步思维”策略的具体实践。实际上，人工智能社区在这个领域已探索了数年，这一策略首次在2022年5月发布的论文《大语言模型是零样本推理器》（Large Language Models are Zero-Shot Reasoners）中提出。

OpenAI发布的《与大语言模型共学推理》（Learning to Reason with LLMs）一文详细阐述了新模型的训练方法，揭示了其能力提升背后的秘密。文中指出，他们的大规模强化学习算法精心设计了训练流程，使模型在高效利用数据的同时，能够熟练运用思维链进行深度思考。随着强化学习训练时间的增加以及模型在测试时分配更多思考时间，o1的性能持续显著提升。

二、API文档的底层细节
OpenAI在API文档中提供了许多有趣的细节。对于依赖图像输入、函数调用或追求即时响应速度的应用场景，GPT-4o及其精简版GPT-4o mini仍是理想选择。然而，如果你的项目需要深度推理能力，且能够适应较长的响应时间，那么o1模型无疑是更优的选择。

API文档还提供了以下关键点：
1. API访问权限：目前，o1-preview与o1-mini的访问仅限于五级账户用户，且API积分累计需达到至少1,000美元方可解锁。
2. 系统提示限制：模型集成了现有的聊天完成API，但仅支持用户与助手之间的消息交互，不支持系统提示功能。
3. 其他功能限制：当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
4. 响应时间：鉴于模型解决问题所需推理量的不同，处理请求的时间可能介于几秒至几分钟不等。

三、隐藏的推理Token
令人遗憾的是，推理Token在API调用中处于隐藏状态。用户需要为这些Token支付费用，却无法得知其具体内容。OpenAI对这项政策的解释如下：“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由，避免外界干预或操控其推理逻辑。”

四、示例解读
OpenAI在“思维链”部分提供了许多示例，包括Bash脚本生成、填字游戏解答和化学溶液pH值计算等，初步展示了这些模型在ChatGPT用户界面下的思维链能力。但并未展示原始的推理Token，而是通过一种优化机制，将复杂的推理步骤简化为易于理解的摘要。

五、推理模型的未来
人工智能领域这一新进展带来了诸多待解之谜与潜在机遇。社区正逐步探索这些模型的最佳应用场景。在此期间，威利森预计GPT-4o（及Claude 3.5 Sonnet等模型）将继续发挥重要作用。同时，我们也将见证这些推理模型如何扩展我们的思维模式，解决更多前所未有的任务。

【结语】
OpenAI o1的非直接进化策略在成本与性能上做出了妥协，为人工智能领域带来了新的可能性。随着技术的不断发展，我们期待看到更多类似的新型模型涌现，为我们的生活带来更多便利。

>>> Read more <<<