北京,2025年3月21日 – 当人工智能(AI)的浪潮席卷全球,如何更有效地评估其能力成为一个日益重要的问题。传统的基准测试往往难以捕捉AI在创造力、指令遵循和复杂任务处理方面的潜力。近日,一个由高中生创建的创新AI基准测试平台MC-Bench走红网络,它利用广受欢迎的沙盒游戏《我的世界》(Minecraft)作为AI的竞技场,并由用户投票决定大模型的排名,引发了业界和公众的广泛关注。
MC-Bench的创意十分巧妙。用户进入网站(https://mcbench.ai/)后,会看到由不同AI模型根据提示词在《我的世界》中建造的作品。这些作品在投票前都是匿名的,用户可以根据自己的判断,在A、B两个作品中选择更优者,或者选择“持平”。投票结束后,用户才能看到每个作品对应的AI模型。
这个基准测试主要考察AI的三个维度:指令遵循、代码完成度和创造力。例如,提示词可能是“建造一个在云层中飞行的详细蒸汽朋克风格飞艇”,AI模型需要编写代码来完成这个任务。用户则根据作品的完成度、细节和创意进行投票。
MC-Bench的创始人Adi Singh是一位高中生。他认为,《我的世界》的价值在于其广泛的普及度。“人们对它的熟悉程度”使得评估过程更加直观。相比于研究复杂的代码,大多数用户更容易判断哪个雪人建造得更好看。这种大众参与的方式能够收集到更多的数据,从而更全面地了解哪些模型的表现更出色。
更重要的是,MC-Bench提供了一种“另辟蹊径”的视角,来检验AI的性能。传统的标准化评估往往会给AI带来“主场优势”,因为AI模型在训练过程中已经针对某些具体问题进行了优化。例如,OpenAI的GPT-4可以在LSAT考试中取得优异成绩,但却可能无法辨别“Strawberry”一词中有多少个“R”。而像《我的世界》这样的开放式游戏,能够更好地考察AI在3D空间理解、创造力和目标导向型任务方面的能力。
目前,MC-Bench上的排行榜显示,Claude 3.7 & 3.5 和 GPT-4.5 在各项指标上都处于断层领先地位。这表明,在指令遵循、代码完成度和创造力方面,这些模型具有显著优势。
MC-Bench的出现,也引发了人们对于AI基准测试的更深层次思考。在AI技术飞速发展的今天,我们需要更多像MC-Bench这样新颖、开放、具有广泛参与性的测试方法,来更全面地评估AI的能力,并推动AI技术的进步。
MC-Bench团队表示,他们愿意向研究人员开放后端查看权限,并最终将完全开放数据以供下载,以促进AI研究的进一步发展。Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴。
参考文献:
- TechCrunch. (2025, March 20). A high schooler built a website that lets you challenge AI models to a Minecraft build-off. Retrieved from https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/
(完)
Views: 0