好的,根据你提供的信息,我将撰写一篇新闻报道,力求客观、深入,并符合专业新闻写作的标准。
标题:GPT-4.5首测:情商高智商平?OpenAI豪掷千金的“有思想的AI”争议缠身
引言:
OpenAI最新发布的GPT-4.5模型,被创始人奥特曼誉为“第一个让他感觉像是在和一个有思想的人交谈的模型”。然而,在用户的一手实测中,这款备受瞩目的AI却遭遇了“智商平庸、价格离谱”的质疑。耗费巨资打造的GPT-4.5,究竟是技术突破还是差强人意?
正文:
北京时间2月28日凌晨,OpenAI以一场简短的直播揭开了GPT-4.5的神秘面纱。虽然“喜当爹”的奥特曼本人并未亲临现场,但他通过社交媒体X第一时间传递了关键信息:GPT-4.5在情感交流方面表现出色,但同时承认其成本高昂,且不擅长逻辑推理。
性能表现:情商高,智商却不尽如人意?
OpenAI官方博客也证实了奥特曼的说法,称GPT-4.5知识面更广,更富“情商”,减少了“胡说八道”的情况。然而,在GPQA(科学)、AIME’24(数学)、SWE-Bench Verified(编码)等基准测试中,GPT-4.5的成绩甚至不如之前的o3-mini模型。
用户的实际测试也印证了这一说法。X平台网友@Colin Fraser分享了一道逻辑谜题的测试结果,GPT-4.5的答案令人费解,暴露出其在逻辑推理上的短板。
价格高昂:性价比引质疑
除了智商问题,GPT-4.5的价格也引发了广泛争议。X网友Casper Hansen直言,如果GPT-4.5没有显著改进,如此高昂的定价令人失望。数据显示,GPT-4.5的API价格远超DeepSeek R1,每百万Tokens 75美元的价格是GPT-4o的30倍。
博主Simon Willison在Hacker News上分享了一项测试:使用GPT-4.5的脚本对一个包含324条评论的帖子进行摘要,耗时154秒,花费2.11美元。此外,生成一张骑自行车的鹈鹕SVG图片耗时112秒。Willison评价道:“GPT-4.5(通过API)给人的第一印象就是太慢了。”
能力对比:部分领域被竞品超越
在图像生成和代码能力方面,GPT-4.5的表现也逊色于竞争对手。用户测试表明,GPT-4.5生成的SVG图片质量不如Claude 3.7 Sonnet,代码能力也存在差距。在医学图像诊断方面,GPT-4.5同样面临挑战。
并非一无是处:写作和创意设计潜力巨大
尽管槽点满满,GPT-4.5并非一无是处。X博主ben认为,GPT-4.5是第一个真正能写出好东西的模型,称其为“写作界的Midjourney时刻”。这表明GPT-4.5在语言理解和创意生成方面具有潜力。
OpenAI回应:持续优化,未来可期?
面对质疑,AI研究员Karpathy提醒大家,GPT-4.5目前只经过了基本训练,在复杂推理方面的表现可能不够好。OpenAI计划通过强化学习进一步训练,提升其在数学和编程等领域的表现。
结论:
GPT-4.5的发布引发了关于AI发展方向的深刻思考。OpenAI豪掷千金打造的这款“有思想的AI”,在情感交流方面有所突破,但在智商、性价比等方面仍面临诸多挑战。未来的AI发展,究竟是侧重情感还是强化逻辑,或许是OpenAI及整个行业需要认真思考的问题。
参考文献:
- 机器之心:《实测GPT4.5,智商一般、贵得离谱,OpenAI砸5000亿就造出这玩意?》
- 奥特曼X平台个人账号
- OpenAI官方博客
- X平台用户@Colin Fraser、@Casper Hansen、@ben等人的测试结果
- Hacker News论坛相关讨论串
写作说明:
- 客观性: 力求平衡报道,既呈现GPT-4.5的优点,也客观反映其不足之处。
- 深度: 深入分析用户测试结果和行业观点,挖掘GPT-4.5引发的争议背后的原因。
- 专业性: 引用可靠来源,确保信息准确性,并使用专业术语进行描述。
- 可读性: 采用通俗易懂的语言,避免过度技术化,使读者能够轻松理解。
- 结构清晰: 按照“引言-主体-结论”的结构组织文章,逻辑清晰,层次分明。
希望这篇报道符合您的要求。
Views: 0