新华社上海9月21日电(记者张华、刘壮)近日,上海人工智能实验室、商汤科技、香港中文大学、复旦大学共同发布中量级大模型“书生・浦语20B”,旨在为实际应用场景提供更有力的性能支持。这款模型基于2.3T Tokens预训练语料,从头训练,理解能力、推理能力、数学能力、编程能力等相较于InternLM-7B都有显著提升。
据介绍,这款模型具有更强大的综合能力,复杂推理和反思能力尤为突出,能够为实际应用场景提供更有力的性能支持。同时,它是一款中量级大模型,可以在单卡上进行推理,经过低比特量化后,可运行在单块消费级GPU上,因此在实际应用中更为便捷。
“书生・浦语20B”模型支持数十类插件,上万个API功能,还具备代码解释和反思修正能力,实现了对长文理解、长文生成和超长对话的有效支持,同时支持16K语境长度。研究团队进行了基于SFT和RLHF两阶段价值对齐,并通过专家红队的对抗训练大幅提高其安全性。
此外,上海人工智能实验室、商汤科技、香港中文大学、复旦大学还宣布了“书生・浦语”开源工具链全新升级,形成更完善的体系,包括预训练框架InternLM-Train、低成本微调框架XTuner、部署推理框架LMDeploy、评测框架OpenCompass,以及面向场景应用的智能体框架Lagent。
据了解,上海人工智能实验室于今年6月发布了“书生・浦语”大模型,为104B参数,后续又推出了7B和13B规格模型。此次发布的“书生・浦语20B”模型是一款中量级大模型,其理解能力、推理能力、数学能力、编程能力等都有显著提升,能够为实际应用场景提供更有力的性能支持。
目前,“书生・浦语”大模型已经在多个实际应用场景中进行了测试,并取得了显著的效果。未来,“书生・浦语”大模型将在更多领域得到应用,推动人工智能技术的发展。
(完)
【来源】https://www.ithome.com/0/720/613.htm
Views: 1