Minecraft成AI竞技场？高中生妙用游戏做基准！

北京，2025年3月21日 – 当人工智能（AI）的浪潮席卷全球，如何更有效地评估其能力成为一个日益重要的问题。传统的基准测试往往难以捕捉AI在创造力、指令遵循和复杂任务处理方面的潜力。近日，一个由高中生创建的创新AI基准测试平台MC-Bench走红网络，它利用广受欢迎的沙盒游戏《我的世界》（Minecraft）作为AI的竞技场，并由用户投票决定大模型的排名，引发了业界和公众的广泛关注。

MC-Bench的创意十分巧妙。用户进入网站（https://mcbench.ai/）后，会看到由不同AI模型根据提示词在《我的世界》中建造的作品。这些作品在投票前都是匿名的，用户可以根据自己的判断，在A、B两个作品中选择更优者，或者选择“持平”。投票结束后，用户才能看到每个作品对应的AI模型。

这个基准测试主要考察AI的三个维度：指令遵循、代码完成度和创造力。例如，提示词可能是“建造一个在云层中飞行的详细蒸汽朋克风格飞艇”，AI模型需要编写代码来完成这个任务。用户则根据作品的完成度、细节和创意进行投票。

MC-Bench的创始人Adi Singh是一位高中生。他认为，《我的世界》的价值在于其广泛的普及度。“人们对它的熟悉程度”使得评估过程更加直观。相比于研究复杂的代码，大多数用户更容易判断哪个雪人建造得更好看。这种大众参与的方式能够收集到更多的数据，从而更全面地了解哪些模型的表现更出色。

更重要的是，MC-Bench提供了一种“另辟蹊径”的视角，来检验AI的性能。传统的标准化评估往往会给AI带来“主场优势”，因为AI模型在训练过程中已经针对某些具体问题进行了优化。例如，OpenAI的GPT-4可以在LSAT考试中取得优异成绩，但却可能无法辨别“Strawberry”一词中有多少个“R”。而像《我的世界》这样的开放式游戏，能够更好地考察AI在3D空间理解、创造力和目标导向型任务方面的能力。

目前，MC-Bench上的排行榜显示，Claude 3.7 & 3.5 和 GPT-4.5 在各项指标上都处于断层领先地位。这表明，在指令遵循、代码完成度和创造力方面，这些模型具有显著优势。

MC-Bench的出现，也引发了人们对于AI基准测试的更深层次思考。在AI技术飞速发展的今天，我们需要更多像MC-Bench这样新颖、开放、具有广泛参与性的测试方法，来更全面地评估AI的能力，并推动AI技术的进步。

MC-Bench团队表示，他们愿意向研究人员开放后端查看权限，并最终将完全开放数据以供下载，以促进AI研究的进一步发展。Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴。

参考文献：

TechCrunch. (2025, March 20). A high schooler built a website that lets you challenge AI models to a Minecraft build-off. Retrieved from https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Minecraft成AI竞技场？高中生妙用游戏做基准！

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐