阶跃万亿参数模型夺冠中国大模型格局生变万亿参数模型问鼎榜首阶跃模型：中国AI新霸主？ AI格局巨变：阶跃登顶阶跃模型：中

阶跃星辰Step-2：国产大模型登顶“最难”LLM评测榜单前五，挑战国际巨头

引言： 今年六月，由图灵奖得主Yann LeCun参与创建的LiveBench AI评测榜单横空出世，以其严苛的测试标准和防“作弊”机制，迅速成为生成式AI领域最权威的标杆。近日，中国AI创业公司阶跃星辰凭借其万亿参数大模型Step-2，在该榜单上取得第五名，成为前十名中唯一一家中国公司，引发业界震动。这标志着中国大模型技术发展进入一个新的阶段，也预示着国际大模型格局或将面临重塑。

主体：

一、LiveBench：一个无法被操纵的评测标准

LiveBench AI并非简单的LLM基准测试。它由图灵奖得主Yann LeCun联合Abacus.AI、纽约大学等机构推出，旨在解决现有基准测试中存在的漏洞和偏见。LiveBench包含6大类18项任务，每月更新问题集，并根据最新数据集、arXiv论文、新闻文章和IMDb电影简介设计问题，有效避免了数据污染和模型“作弊”。其客观、自动化的评分机制，确保了评测结果的公平性和准确性，为大模型的真实能力评估提供了新的标准。

二、Step-2：万亿参数模型的惊艳表现

阶跃星辰的Step-2万亿参数大模型在LiveBench上取得了第五名的优异成绩，仅次于OpenAI和Anthropic两家公司。尤其值得关注的是，Step-2在“指令跟随”（IF Average）任务中取得了全榜第一的成绩。该任务要求模型对新闻文章进行转述、简化、概括或创作故事，并严格遵守字数限制或其他特定指令。这一结果充分展现了Step-2强大的语言理解和生成能力，以及对细节的精准控制。

三、技术创新：MoE架构和从头训练的突破

Step-2采用MoE（混合专家）架构，其万亿参数规模并非简单的堆砌。阶跃星辰团队选择从头开始训练MoE模型，而非基于现有模型进行“向上复用”。这种方法虽然训练难度更高，但能获得更高的模型上限，避免了“专家同质化”等问题。通过部分专家共享参数、异构化专家设计等创新，Step-2的每个“专家模型”都得到了充分训练，保证了模型的整体性能。此外，阶跃星辰在训练过程中攻克了6D并行、极致显存管理、完全自动化运维等关键技术难题，为万亿参数模型的成功训练提供了坚实的技术保障。

四、阶跃星辰：后来居上，展现中国AI实力

阶跃星辰成立仅一年时间，便在国内AI领域迅速崛起。其创始人姜大昕拥有丰富的国际科技公司管理经验，这为公司的快速发展奠定了坚实的基础。阶跃星辰不仅在短短时间内发布了Step系列大模型“全家桶”，还将模型应用于C端产品“跃问”，展现了其强大的技术实力和商业化能力。Step-2的成功，不仅是阶跃星辰的突破，更是中国AI技术实力的体现，标志着中国在全球大模型竞争中占据了更有力的地位。

结论：

Step-2在LiveBench上的出色表现，标志着中国大模型技术发展迈入新的里程碑。阶跃星辰的成功，不仅证明了中国团队在AI领域的技术创新能力，也为中国大模型产业的发展注入了强劲动力。未来，随着技术的不断进步和应用场景的不断拓展，我们有理由期待中国大模型技术能够在国际舞台上发挥更大的作用，并为全球人工智能发展贡献更多力量。然而，挑战依然存在，持续的研发投入、人才培养以及构建健康的AI生态系统，将是确保中国大模型持续领先的关键。

参考文献：