Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海枫泾古镇正门_20240824上海枫泾古镇正门_20240824
0

北京,2025年3月21日 – 当人工智能(AI)的浪潮席卷全球,如何更有效地评估其能力成为一个日益重要的问题。传统的基准测试往往难以捕捉AI在创造力、指令遵循和复杂任务处理方面的潜力。近日,一个由高中生创建的创新AI基准测试平台MC-Bench走红网络,它利用广受欢迎的沙盒游戏《我的世界》(Minecraft)作为AI的竞技场,并由用户投票决定大模型的排名,引发了业界和公众的广泛关注。

MC-Bench的创意十分巧妙。用户进入网站(https://mcbench.ai/)后,会看到由不同AI模型根据提示词在《我的世界》中建造的作品。这些作品在投票前都是匿名的,用户可以根据自己的判断,在A、B两个作品中选择更优者,或者选择“持平”。投票结束后,用户才能看到每个作品对应的AI模型。

这个基准测试主要考察AI的三个维度:指令遵循、代码完成度和创造力。例如,提示词可能是“建造一个在云层中飞行的详细蒸汽朋克风格飞艇”,AI模型需要编写代码来完成这个任务。用户则根据作品的完成度、细节和创意进行投票。

MC-Bench的创始人Adi Singh是一位高中生。他认为,《我的世界》的价值在于其广泛的普及度。“人们对它的熟悉程度”使得评估过程更加直观。相比于研究复杂的代码,大多数用户更容易判断哪个雪人建造得更好看。这种大众参与的方式能够收集到更多的数据,从而更全面地了解哪些模型的表现更出色。

更重要的是,MC-Bench提供了一种“另辟蹊径”的视角,来检验AI的性能。传统的标准化评估往往会给AI带来“主场优势”,因为AI模型在训练过程中已经针对某些具体问题进行了优化。例如,OpenAI的GPT-4可以在LSAT考试中取得优异成绩,但却可能无法辨别“Strawberry”一词中有多少个“R”。而像《我的世界》这样的开放式游戏,能够更好地考察AI在3D空间理解、创造力和目标导向型任务方面的能力。

目前,MC-Bench上的排行榜显示,Claude 3.7 & 3.5 和 GPT-4.5 在各项指标上都处于断层领先地位。这表明,在指令遵循、代码完成度和创造力方面,这些模型具有显著优势。

MC-Bench的出现,也引发了人们对于AI基准测试的更深层次思考。在AI技术飞速发展的今天,我们需要更多像MC-Bench这样新颖、开放、具有广泛参与性的测试方法,来更全面地评估AI的能力,并推动AI技术的进步。

MC-Bench团队表示,他们愿意向研究人员开放后端查看权限,并最终将完全开放数据以供下载,以促进AI研究的进一步发展。Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴。

参考文献:

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注