近日,科技界巨头OpenAI宣布推出两款新型人工智能模型——o1-preview与o1-mini。这两款模型在技术上有许多值得深入探讨的内容。人工智能专家西蒙·威利森(Simon Willison)对这两个新模型进行了深入剖析,揭示了它们在技术上的独特优势与不足。
威利森指出,o1并非简单的GPT-4o直接升级版,而是在强化“推理”能力的同时,做出了成本与性能上的权衡。
一、训练思维链
OpenAI在声明中表示,他们研发了一系列新型人工智能模型,旨在让模型在做出响应前花更多时间思考。这些新模型可以视为思维链提示策略的深化拓展——“分步思维”策略的具体实践。实际上,人工智能社区在这个领域已探索了数年,这一策略首次在2022年5月发布的论文《大语言模型是零样本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。
OpenAI发布的《与大语言模型共学推理》(Learning to Reason with LLMs)一文详细阐述了新模型的训练方法,揭示了其能力提升背后的秘密。文中指出,他们的大规模强化学习算法精心设计了训练流程,使模型在高效利用数据的同时,能够熟练运用思维链进行深度思考。随着强化学习训练时间的增加以及模型在测试时分配更多思考时间,o1的性能持续显著提升。
二、API文档的底层细节
OpenAI在API文档中提供了许多有趣的细节。对于依赖图像输入、函数调用或追求即时响应速度的应用场景,GPT-4o及其精简版GPT-4o mini仍是理想选择。然而,如果你的项目需要深度推理能力,且能够适应较长的响应时间,那么o1模型无疑是更优的选择。
API文档还提供了以下关键点:
1. API访问权限:目前,o1-preview与o1-mini的访问仅限于五级账户用户,且API积分累计需达到至少1,000美元方可解锁。
2. 系统提示限制:模型集成了现有的聊天完成API,但仅支持用户与助手之间的消息交互,不支持系统提示功能。
3. 其他功能限制:当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
4. 响应时间:鉴于模型解决问题所需推理量的不同,处理请求的时间可能介于几秒至几分钟不等。
三、隐藏的推理Token
令人遗憾的是,推理Token在API调用中处于隐藏状态。用户需要为这些Token支付费用,却无法得知其具体内容。OpenAI对这项政策的解释如下:“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由,避免外界干预或操控其推理逻辑。”
四、示例解读
OpenAI在“思维链”部分提供了许多示例,包括Bash脚本生成、填字游戏解答和化学溶液pH值计算等,初步展示了这些模型在ChatGPT用户界面下的思维链能力。但并未展示原始的推理Token,而是通过一种优化机制,将复杂的推理步骤简化为易于理解的摘要。
五、推理模型的未来
人工智能领域这一新进展带来了诸多待解之谜与潜在机遇。社区正逐步探索这些模型的最佳应用场景。在此期间,威利森预计GPT-4o(及Claude 3.5 Sonnet等模型)将继续发挥重要作用。同时,我们也将见证这些推理模型如何扩展我们的思维模式,解决更多前所未有的任务。
【结语】
OpenAI o1的非直接进化策略在成本与性能上做出了妥协,为人工智能领域带来了新的可能性。随着技术的不断发展,我们期待看到更多类似的新型模型涌现,为我们的生活带来更多便利。
Views: 0