近日,中国电信人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。这一里程碑式的成果不仅展示了中国在人工智能领域的自主研发实力,也为全球大模型训练技术的发展提供了新的范例。
详细报道
1. 国产大模型训练的突破
此次由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领的团队,成功完成了国内首个基于全国产化万卡集群训练的万亿参数大模型。该模型名为TeleChat2-115B,基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”训练完成。在保证训练精度的前提下,团队利用多种优化手段提升了模型训练效率和稳定性,实现了 GPU 同等算力计算效率的 93% 以上,同时模型有效训练时长占比达到 98% 以上。
2. 技术细节与优化策略
在模型训练过程中,TeleAI 采用了大量小模型进行 Scaling,验证不同模型结构的有效性。同时,在数据配比方面,基于小模型实验结果反馈,采用回归预测模型,得到较优数据配比。此外,在后训练退火阶段,TeleAI 通过大量实验验证探索到了退火最佳数据量和最佳配比,以及学习率变化方式等,进一步提升了模型训练效果。这些优化策略不仅提升了训练效率,还保证了模型的训练精度。
3. 模型性能与应用前景
TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中,以 86.9 分的成绩排名第一。其通用能力较 TeleChat 系列模型提升近 30%,特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方面能力均有大幅提升。这一成果不仅展示了模型的强大功能,也为未来的应用提供了广阔前景。
4. 开源共享,引领创新
TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先开源大模型的央企机构,TeleAI 积极通过开源推动大模型技术的不断进步,并持续推动和引领技术创新向产业落地快速跃迁。开源地址包括 GitHub、Gitee、Modescope 和 Modelers,为全球开发者提供了宝贵的资源和平台。
5. 产业应用与未来展望
此次里程碑式的成果不仅展示了中国在人工智能领域的自主研发实力,也为全球大模型训练技术的发展提供了新的范例。未来,随着技术的不断进步和应用的不断拓展,国产大模型将在更多领域发挥重要作用,推动产业升级和技术创新。
结论
中国电信人工智能研究院(TeleAI)的成功,不仅是中国在人工智能领域自主创新的重要里程碑,也为全球大模型训练技术的发展树立了新的标杆。随着更多企业和机构的参与,国产大模型技术将不断进步,为未来的智能化应用带来更多可能。
参考文献
- 中国电信人工智能研究院(TeleAI)官网
- 中国计算语言学大会(CCL2024)官方公告
- NLPCC2024 官方公告
通过这一系列的报道,我们不仅能够深入了解国产大模型训练的技术细节和应用前景,还能够感受到中国在人工智能领域自主创新的实力和决心。未来,我们期待看到更多类似的突破,为全球科技发展贡献中国力量。
Views: 0