OpenAI发布GPT-4.5:情商至上,API价格飙升30倍,AI发展新方向?
旧金山 – 人工智能领域再次迎来重大突破。OpenAI于今日凌晨发布了其最新、最强大的语言模型GPT-4.5的研究预览版本。这一消息迅速引发了科技界的广泛关注,不仅因为其在“情商”方面的显著提升,更因为其API价格的惊人涨幅。
GPT-4.5:不拼推理拼情商
与以往侧重推理能力的模型不同,GPT-4.5将重点放在了扩展预训练和后训练上。OpenAI表示,通过扩展无监督学习,GPT-4.5能够更有效地识别模式、建立联系并产生创造性见解,而无需依赖复杂的推理过程。这意味着,GPT-4.5从一开始就不是一个纯粹的推理模型,而是一个更注重直觉和知识广度的模型。
OpenAI的早期测试表明,与GPT-4.5的交互更加自然流畅。该模型拥有更广泛的知识库,更能准确理解用户意图,并且具备更高的“情商”,这使得它在写作、编程和解决实际问题等任务中表现出色。此外,GPT-4.5还显著减少了“幻觉”现象,即模型生成不真实或无意义信息的倾向。
Cognition联合创始人兼CEO Scott Wu分享了他的使用体验,称GPT-4.5“非常棒”。在他们的智能体编码基准测试中,GPT-4.5相较于之前的模型实现了大幅改进。一个有趣的数据点是,虽然GPT-4.5和Claude 3.7 Sonnet在整体基准测试中得分相似,但GPT-4.5在涉及架构和跨系统交互的任务上表现更出色,而Claude 3.7 Sonnet在原始编码和代码编辑方面更具优势。
API价格飞涨,商业模式面临挑战?
然而,GPT-4.5的发布也带来了一个令人关注的问题:API价格的飞涨。据消息人士透露,GPT-4.5的API价格将比之前的版本高出30倍,这无疑将大幅增加使用该模型的成本。
这一举动引发了业界对于OpenAI商业模式的讨论。一方面,更高的价格可以帮助OpenAI收回研发成本,并为未来的模型开发提供资金支持。另一方面,过高的价格可能会限制GPT-4.5的普及,使其难以被广泛应用于各种场景。
性能测试:各有千秋
OpenAI在多个基准测试中对GPT-4.5进行了评估。在SimpleQA数据集上,GPT-4.5的准确率最高,超越了前代模型,展现了其惊人的世界知识。同时,GPT-4.5的幻觉率也最低。
在人类协作训练水平方面,OpenAI开发了全新的可扩展技术,可以使用来自较小模型的数据来训练更大、更强的模型。测试结果显示,测试人员更喜欢GPT-4.5的查询结果,认为其能够更好地理解人类的意思,并以更细致入微的“情商”来解读微妙的暗示或隐含的期望。
然而,在GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5虽然全面领先于GPT-4o,但仍然逊色于o3-mini,尤其是在数学和真实编程能力方面。
AI发展的新方向:情商与推理的平衡
GPT-4.5的发布标志着人工智能发展的一个新方向。OpenAI正在探索两种互补的范式来提升AI能力:无监督学习和推理。这两种范式代表了AI智能的两个轴向。
扩展推理使模型在做出回应之前学会思考并产生思维链,从而能够解决复杂的STEM或逻辑问题。而无监督学习则提高了世界模型的准确性以及直觉能力。
OpenAI认为,推理将成为未来模型的核心能力,而预训练和推理这两种扩展方法将相辅相成。随着GPT-4.5等模型通过预训练变得更加智能和知识渊博,它们将成为推理和使用工具的代理的更强大的基础。
未来展望
GPT-4.5的发布无疑将对人工智能领域产生深远的影响。它不仅展示了OpenAI在模型开发方面的最新进展,也引发了关于AI发展方向的思考。
未来,我们或许会看到更多注重“情商”和直觉的AI模型出现,它们将能够更好地理解人类的需求和意图,并在各个领域发挥更大的作用。同时,如何平衡“情商”与推理能力,以及如何制定合理的API价格,将是OpenAI和其他AI公司需要认真考虑的问题。
参考文献:
- 机器之心. (2025). 刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模型,API价格飞涨30倍,不拼推理拼情商. https://www.jiqizhixin.com/
Views: 0