上海,2024年1月15日——上海人工智能实验室今日宣布,其自主研发的书生大模型迎来重大升级,正式发布书生·浦语3.0(InternLM3)。新版本通过创新性的数据精炼框架,仅使用4T训练数据,便实现了超越同量级开源模型的综合性能,并首次在通用模型中融合了常规对话与深度思考能力,为通用人工智能的发展开辟了新的路径。这一突破不仅大幅降低了模型训练成本,更在数据瓶颈日益凸显的背景下,为大模型发展指明了新的方向。

数据“思维密度”:大模型性能提升的新引擎

长期以来,大模型的发展遵循着“尺度定律”,即通过不断扩大预训练数据规模来提升模型性能。然而,随着数据规模的不断膨胀,数据瓶颈和训练成本的急剧上升,使得这种发展模式的可持续性面临挑战。上海人工智能实验室的研究团队敏锐地洞察到,数据质量的提升远比数据规模的扩大更为关键。他们提出了“思维密度”(IQPT,Intelligence Quality per Token)的概念,认为数据中蕴含的逻辑性、复杂性和启发性才是决定模型性能的关键因素。

为了量化“思维密度”的影响,研究团队将其定义为模型平均性能与训练数据量的比值,以此衡量大模型训练数据的“投入产出比”。对比国内外性能领先的同量级开源模型,书生·浦语3.0的数据思维密度高出4倍以上,这充分证明了其数据精炼框架的有效性。

数据精炼框架:智能化处理与高价值合成

书生·浦语3.0的核心突破在于其创新的数据精炼框架。该框架包含两个核心要素:

1. 数据处理的智能化: 研究团队将数据划分为数千万个领域,面对如此庞大的数据量,人工处理显然难以胜任。为此,他们引入了智能体自我演进技术,实现大规模自动化质检。智能体能够根据错例进行反思,并为每个领域进行定制化处理,从而实现数据的精细化管理。

2. 高价值数据的合成: 基于“通专融合”的理念,研究团队利用通用模型快速迭代合成算法,再精选数据训练专用模型。通过在海量天然数据中进行素材挖掘,改进的树状搜索策略,以及多维度质量验证,他们成功合成了大量内容丰富、质量可靠的高价值数据。

正是通过上述数据精炼框架,书生·浦语3.0仅使用4T token的预训练数据,便达到了主流开源模型18T数据的训练效果,不仅大幅降低了训练成本,更证明了数据质量提升对于模型性能的巨大推动作用。

综合性能超越同量级模型:逼近GPT-4o-mini

为了全面评估书生·浦语3.0的性能,研究团队基于司南OpenCompass开源评测框架,采用了CMMLU、GPQA等十多个权威评测集,涵盖了推理、数学、编程、指令跟随、长文本、对话及综合表现等多个维度。评测结果显示,书生·浦语3.0在大多数评测集得分领先,综合性能十分接近GPT-4o-mini,充分展现了其强大的性能和潜力。

通用模型融合深度思考:应对复杂真实场景

书生·浦语3.0的另一大亮点在于,它首次在通用模型中实现了常规对话与深度思考能力的融合。以往,深度思考和常规对话的数据风格差异较大,业界通常针对强推理能力单独构建专用模型。而书生·浦语3.0通过“通专融合”的技术路线,探索了不同类型数据的融合训练方案,使得单一模型同时具备了常规对话和深度思考能力。

用户可以通过系统提示词(system prompt)的控制,在两种模式间一键切换,让通用模型在应对日常对话的同时,也能胜任复杂的推理任务。这种融合不仅提高了模型的灵活性和适用性,也为通用人工智能的实现提供了新的思路。

在后训练阶段,研究团队还构建了以任务场景和知识体系驱动的合成数据探索方案,探索了基于世界知识树(World Knowledge Tree)的指令标注与合成方案,并运用基于多智能体的方式构建了高质量的回复。通过充分挖掘用户真实指令和合成指令的潜力,进行了多任务场景精细化分类,打造了数十万高质量微调指令数据集,从而大幅提升了模型的对话体验。

开源赋能创新:积极拥抱社区和国产生态

上海人工智能实验室始终秉持开源开放的理念,致力于通过高质量的开源赋能创新。除了发布书生·浦语3.0基座模型外,实验室还推出了全栈开源工具链、各类开源框架等,让产业界及开发者能够便捷地实现书生系列模型的训练、部署与应用。

同时,实验室积极拥抱国产生态,基于DeepLink开放计算体系,与昇腾、寒武纪、沐曦等算力硬件厂商开展合作,在新兴算力硬件上实现了书生·浦语3.0的微调训练与高效推理,从软硬件多角度共同促进AI生态的繁荣。

应用案例展示:从推理谜题到智能体任务

书生·浦语3.0不仅拥有强大的推理能力,还具备“高情商”和优秀的创作能力。在演示中,书生·浦语3.0成功解答了复杂的推理谜题,例如在箭头迷宫问题中,模型能够找到从起点到终点的可行路径,这需要空间理解和算法综合应用能力。此外,模型还轻松应对了经典的猜数字问题。

值得一提的是,书生·浦语3.0还将深度思考能力拓展到了智能体任务,成为了开源社区内首个支持浏览器使用的通用对话模型。例如,在买房推荐任务中,模型能够像人一样在二手房网站上进行操作和浏览,找出符合要求的房源,展现了其强大的信息挖掘和决策能力。

未来展望:推动通用人工智能发展

书生·浦语3.0的发布,不仅标志着上海人工智能实验室在大模型技术上的又一重大突破,也为整个行业带来了新的启示。通过聚焦数据质量而非单纯追求数据规模,通过融合深度思考与常规对话能力,书生·浦语3.0为通用人工智能的发展探索了一条新的道路。

随着人工智能技术的不断发展,我们有理由相信,像书生·浦语3.0这样的创新成果将不断涌现,推动人工智能在更多领域发挥更大的作用,最终造福人类社会。

相关链接:

参考文献:

  • 上海人工智能实验室官方网站
  • 司南OpenCompass开源评测框架
  • 书生·浦语3.0相关技术报告

(完)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注