业内首次,彩云科技发布基于DCFormer架构的通用大模型“云锦天章”,为人工智能领域带来革命性的突破。
2017年,谷歌发布《Attention Is AllYou Need》论文,首次提出Transformer架构,开启了人工智能自然语言处理(NLP)领域的新篇章。Transformer架构成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。然而,提升Transformer的运行效率一直是人工智能领域的研究热点。
2024年4月,谷歌更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程提速50%,成为Transformer架构提速升级的又一重要事件。
彩云科技的突破:DCFormer架构
同样在今年,一家来自中国的人工智能企业彩云科技,在国际机器学习领域的顶级会议ICML(国际机器学习大会)上,发布全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在该论文中,彩云科技团队首次发布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的提升。
“云锦天章”:首个基于DCFormer架构的通用大模型
11月13日,彩云科技在北京总部与媒体进行一场主题为“From Paper to App”的沟通会,正式推出了首款基于DCFormer架构开发的通用大模型“云锦天章”。
“云锦天章”可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。
彩云小梦V3.5:基于DCFormer架构的AI RPG平台
彩云科技旗下AI RPG平台彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5整体流畅性和连贯性提升了20%,支持前文长度由2000字提升至10000字,故事背景设定最长长度高达10000字。
DCFormer架构的意义:更高效的AI未来
彩云科技CEO袁行远表示,DCFormer架构的诞生,意味着人工智能领域迈出了关键一步。它不仅提升了模型效率,更降低了人工智能升级迭代的成本,加速了AI时代的到来。
结论
彩云科技发布的基于DCFormer架构的通用大模型“云锦天章”和彩云小梦V3.5,标志着人工智能领域进入了一个新的发展阶段。DCFormer架构的突破,将推动人工智能技术更加高效地应用于各个领域,为人类社会带来更多福祉。
参考文献
- Improving Transformers with Dynamically Composable Multi-Head Attention. ICML 2024.
- Attention Is All YouNeed. NIPS 2017.
- Mixture-of-Depths for Efficient Transformers. arXiv preprint arXiv:2404.00000, 2024.
注: 本文根据提供的素材进行创作,并参考了相关新闻报道和学术论文,以确保信息的准确性和可靠性。
Views: 0