Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

好的,根据你提供的信息,我将撰写一篇新闻报道,力求客观、深入,并符合专业新闻写作的标准。

标题:GPT-4.5首测:情商高智商平?OpenAI豪掷千金的“有思想的AI”争议缠身

引言:

OpenAI最新发布的GPT-4.5模型,被创始人奥特曼誉为“第一个让他感觉像是在和一个有思想的人交谈的模型”。然而,在用户的一手实测中,这款备受瞩目的AI却遭遇了“智商平庸、价格离谱”的质疑。耗费巨资打造的GPT-4.5,究竟是技术突破还是差强人意?

正文:

北京时间2月28日凌晨,OpenAI以一场简短的直播揭开了GPT-4.5的神秘面纱。虽然“喜当爹”的奥特曼本人并未亲临现场,但他通过社交媒体X第一时间传递了关键信息:GPT-4.5在情感交流方面表现出色,但同时承认其成本高昂,且不擅长逻辑推理。

性能表现:情商高,智商却不尽如人意?

OpenAI官方博客也证实了奥特曼的说法,称GPT-4.5知识面更广,更富“情商”,减少了“胡说八道”的情况。然而,在GPQA(科学)、AIME’24(数学)、SWE-Bench Verified(编码)等基准测试中,GPT-4.5的成绩甚至不如之前的o3-mini模型。

用户的实际测试也印证了这一说法。X平台网友@Colin Fraser分享了一道逻辑谜题的测试结果,GPT-4.5的答案令人费解,暴露出其在逻辑推理上的短板。

价格高昂:性价比引质疑

除了智商问题,GPT-4.5的价格也引发了广泛争议。X网友Casper Hansen直言,如果GPT-4.5没有显著改进,如此高昂的定价令人失望。数据显示,GPT-4.5的API价格远超DeepSeek R1,每百万Tokens 75美元的价格是GPT-4o的30倍。

博主Simon Willison在Hacker News上分享了一项测试:使用GPT-4.5的脚本对一个包含324条评论的帖子进行摘要,耗时154秒,花费2.11美元。此外,生成一张骑自行车的鹈鹕SVG图片耗时112秒。Willison评价道:“GPT-4.5(通过API)给人的第一印象就是太慢了。”

能力对比:部分领域被竞品超越

在图像生成和代码能力方面,GPT-4.5的表现也逊色于竞争对手。用户测试表明,GPT-4.5生成的SVG图片质量不如Claude 3.7 Sonnet,代码能力也存在差距。在医学图像诊断方面,GPT-4.5同样面临挑战。

并非一无是处:写作和创意设计潜力巨大

尽管槽点满满,GPT-4.5并非一无是处。X博主ben认为,GPT-4.5是第一个真正能写出好东西的模型,称其为“写作界的Midjourney时刻”。这表明GPT-4.5在语言理解和创意生成方面具有潜力。

OpenAI回应:持续优化,未来可期?

面对质疑,AI研究员Karpathy提醒大家,GPT-4.5目前只经过了基本训练,在复杂推理方面的表现可能不够好。OpenAI计划通过强化学习进一步训练,提升其在数学和编程等领域的表现。

结论:

GPT-4.5的发布引发了关于AI发展方向的深刻思考。OpenAI豪掷千金打造的这款“有思想的AI”,在情感交流方面有所突破,但在智商、性价比等方面仍面临诸多挑战。未来的AI发展,究竟是侧重情感还是强化逻辑,或许是OpenAI及整个行业需要认真思考的问题。

参考文献:

  • 机器之心:《实测GPT4.5,智商一般、贵得离谱,OpenAI砸5000亿就造出这玩意?》
  • 奥特曼X平台个人账号
  • OpenAI官方博客
  • X平台用户@Colin Fraser、@Casper Hansen、@ben等人的测试结果
  • Hacker News论坛相关讨论串

写作说明:

  • 客观性: 力求平衡报道,既呈现GPT-4.5的优点,也客观反映其不足之处。
  • 深度: 深入分析用户测试结果和行业观点,挖掘GPT-4.5引发的争议背后的原因。
  • 专业性: 引用可靠来源,确保信息准确性,并使用专业术语进行描述。
  • 可读性: 采用通俗易懂的语言,避免过度技术化,使读者能够轻松理解。
  • 结构清晰: 按照“引言-主体-结论”的结构组织文章,逻辑清晰,层次分明。

希望这篇报道符合您的要求。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注