陶哲轩点赞：开源AI模型挑战奥数 AI挑战奥数！陶哲轩惊叹其推理能力开源AI模型AIMO竞赛创纪录，陶哲轩盛赞菲尔茨奖得主盛

开源大模型“QwQ”：在AI数学奥林匹克竞赛中闪耀，挑战数学推理能力极限

引言：菲尔茨奖得主陶哲轩教授近日在社交媒体上盛赞一款名为“QwQ”的开源大模型，其在第二届AI数学奥林匹克竞赛（AIMO）中展现出的惊人推理能力，正挑战着人工智能在数学领域的极限。这款由阿里云通义千问团队发布的模型，仅仅上线两天便在竞赛中取得了令人瞩目的成绩，预示着开源大模型领域格局的潜在变革。

主体：

1. AIMO竞赛与QwQ的崛起： 第二届AIMO竞赛在Kaggle平台上如火如荼地进行着。该竞赛旨在推动人工智能模型的数学推理能力发展，吸引了全球众多团队参与。一个引人注目的现象是，阿里云通义千问团队最新发布的开源大模型QwQ-32B-Preview，正在竞赛中脱颖而出。据陶哲轩教授透露，有参赛队伍使用QwQ-32B取得了18/20分的成绩，距离“Early Sharing Prize”（提前分享奖，奖金两万美元）仅一步之遥。这标志着QwQ在解决数学竞赛问题上的能力，似乎超越了此前竞赛中使用的其他开源模型，例如Mixtral 8x7b、Gemma和Llama 3等。

2. QwQ的性能与特点： QwQ并非仅仅在AIMO竞赛中表现出色。其在多个基准测试中也展现出强大的推理能力，甚至达到了研究生水平。根据阿里云通义千问团队提供的评测数据：

在考察科学问题解决能力的GPQA评测集上，QwQ准确率达到65.2%。
在涵盖综合数学主题的AIME评测中，QwQ胜率达到50%。
在全面考察数学解题能力的MATH-500评测中，QwQ得分高达90.6%，超越了OpenAI的o1-preview和o1-mini。
在评估高难度代码生成的LiveCodeBench评测中，QwQ答对了一半的题目。

更令人惊叹的是，QwQ展现出深度自省的能力。面对复杂问题，它会质疑自身假设，进行自我对话，并仔细审视推理过程的每一步，这在以往的AI模型中是罕见的。例如，在经典智力题“猜牌问题”中，QwQ能够像人类一样进行推理和反思，最终得出正确答案。一些用户甚至推测其强大的逻辑能力可能与其原生语言为中文有关。

3. 开源大模型领域的格局变化： 第一届AIMO竞赛呈现百花齐放的态势，各种模型参与竞争。而第二届竞赛，QwQ的出现似乎改变了这一局面，成为竞赛中的焦点。这表明开源大模型领域的技术竞争日益激烈，也预示着开源模型在数学推理能力方面取得了显著进展。 QwQ的成功，也为其他开源大模型的发展提供了新的方向和启示。

4. 挑战与未来： 尽管QwQ展现出强大的潜力，但阿里云通义千问团队也坦诚地指出，该模型仍处于实验阶段，存在一些局限性，例如不同语言的混合使用、偶有不恰当的偏见以及对专业领域问题的不了解等。随着研究的深入和模型的迭代，这些问题有望得到解决。未来，QwQ以及其他类似的开源大模型，将继续在数学推理、科学研究等领域发挥更大的作用，推动人工智能技术的发展。

结论： QwQ的出现，标志着开源大模型在数学推理能力方面取得了突破性进展。它不仅在AIMO竞赛中展现出强大的实力，也为人工智能在数学及其他科学领域的应用开辟了新的可能性。虽然仍存在一些挑战，但QwQ的成功无疑为开源大模型领域注入了新的活力，也为未来人工智能技术的发展提供了新的方向。我们有理由期待，随着技术的不断进步，人工智能将能够解决更复杂的数学问题，并为科学研究和人类社会进步做出更大的贡献。

参考文献：