北京时间 [日期] – 在人工智能领域竞争日趋白热化的今天,阿里巴巴再次投下一枚重磅炸弹。今天凌晨 3 点,阿里通义千问团队悄然发布了全新的推理模型 QwQ-32B,这款仅有 320 亿参数的模型,却展现出了足以比肩 6710 亿参数 DeepSeek-R1 满血版的惊人性能。这一突破性的进展,再次引发了业界对于大模型发展方向的深度思考。
强化学习赋能,中型模型挑战巨型 MoE
千问团队在官方推文中表示,此次 QwQ-32B 的成功,得益于对扩展强化学习(RL)方法的深入研究,并将其应用于 Qwen2.5-32B 模型之上。研究团队发现,通过强化学习训练,模型的性能可以得到持续提升,尤其是在数学和编码等需要深度推理的任务上。更令人振奋的是,他们观察到强化学习的持续扩展,能够帮助中型模型实现与巨型混合专家模型(MoE)相媲美的性能。
这一发现无疑为大模型的发展提供了新的思路。长期以来,业界普遍认为,提升模型性能的关键在于不断扩大模型规模,但随之而来的高昂训练成本和部署难度,也让许多研究者望而却步。而 QwQ-32B 的成功,证明了通过优化训练方法,即使是参数量相对较小的模型,也能达到甚至超越巨型模型的性能水平。
QwQ-32B:性能卓越,应用广泛
根据官方博客介绍,QwQ-32B 在数学推理、编程和通用能力等一系列基准测试中都表现出色。在 LiveBench、IFEval 和 BFCL 等基准上,QwQ-32B 甚至略微超过了 DeepSeek-R1-671B。
更重要的是,QwQ-32B 已经全面开源,并提供了多种便捷的使用方式:
- Hugging Face: https://huggingface.co/Qwen/QwQ-32B
- ModelScope: https://modelscope.cn/models/Qwen/QwQ-32B
- 在线演示: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
- Qwen Chat: https://chat.qwen.ai/
此外,本地部署工具 Ollama 也第一时间提供了对 QwQ-32B 的支持,用户只需运行 ollama run qwq
即可轻松体验。
强化学习:通往通用人工智能的潜在路径
千问团队在官方博客中明确指出,大规模强化学习(RL)对于提升大语言模型的智能具有重要作用。QwQ-32B 中还集成了与 Agent(智能体)相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
“我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路,”千问团队表示。
社区反响热烈,未来值得期待
QwQ-32B 的发布在社区内引起了强烈反响,许多开发者和研究者都对其性能和潜力表示赞赏。有网友表示,QwQ-32B 的出现,让端侧设备运行高性能大模型成为了可能。
千问团队也透露了未来的工作计划,他们将继续探索大规模强化学习在增强推理能力方面的潜力,并积极探索将智能体与 RL 集成,以实现长时推理,目标是通过推理时间扩展来释放更高的智能。
参考文献
- Qwen 官方博客: https://qwenlm.github.io/zh/blog/qwq-32b/
- Hugging Face – QwQ-32B: https://huggingface.co/Qwen/QwQ-32B
- ModelScope – QwQ-32B: https://modelscope.cn/models/Qwen/QwQ-32B
结语: 阿里此次开源 QwQ-32B 模型,不仅展示了其在人工智能领域的强大实力,也为整个行业带来了新的希望。在追求更大模型的同时,我们也应该更加关注训练方法的优化和强化学习的应用,或许这才是通往通用人工智能的真正捷径。未来,我们期待看到更多像 QwQ-32B 这样的创新成果,为人工智能的发展注入新的活力。
Views: 1