Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海,2024年1月15日——上海人工智能实验室今日宣布,其自主研发的书生大模型迎来重大升级,正式发布书生·浦语3.0(InternLM3)。新版本通过创新性的数据精炼框架,仅使用4T训练数据,便实现了超越同量级开源模型的综合性能,并首次在通用模型中融合了常规对话与深度思考能力,为通用人工智能的发展开辟了新的路径。这一突破不仅大幅降低了模型训练成本,更在数据瓶颈日益凸显的背景下,为大模型发展指明了新的方向。

数据“思维密度”:大模型性能提升的新引擎

长期以来,大模型的发展遵循着“尺度定律”,即通过不断扩大预训练数据规模来提升模型性能。然而,随着数据规模的不断膨胀,数据瓶颈和训练成本的急剧上升,使得这种发展模式的可持续性面临挑战。上海人工智能实验室的研究团队敏锐地洞察到,数据质量的提升远比数据规模的扩大更为关键。他们提出了“思维密度”(IQPT,Intelligence Quality per Token)的概念,认为数据中蕴含的逻辑性、复杂性和启发性才是决定模型性能的关键因素。

为了量化“思维密度”的影响,研究团队将其定义为模型平均性能与训练数据量的比值,以此衡量大模型训练数据的“投入产出比”。对比国内外性能领先的同量级开源模型,书生·浦语3.0的数据思维密度高出4倍以上,这充分证明了其数据精炼框架的有效性。

数据精炼框架:智能化处理与高价值合成

书生·浦语3.0的核心突破在于其创新的数据精炼框架。该框架包含两个核心要素:

1. 数据处理的智能化: 研究团队将数据划分为数千万个领域,面对如此庞大的数据量,人工处理显然难以胜任。为此,他们引入了智能体自我演进技术,实现大规模自动化质检。智能体能够根据错例进行反思,并为每个领域进行定制化处理,从而实现数据的精细化管理。

2. 高价值数据的合成: 基于“通专融合”的理念,研究团队利用通用模型快速迭代合成算法,再精选数据训练专用模型。通过在海量天然数据中进行素材挖掘,改进的树状搜索策略,以及多维度质量验证,他们成功合成了大量内容丰富、质量可靠的高价值数据。

正是通过上述数据精炼框架,书生·浦语3.0仅使用4T token的预训练数据,便达到了主流开源模型18T数据的训练效果,不仅大幅降低了训练成本,更证明了数据质量提升对于模型性能的巨大推动作用。

综合性能超越同量级模型:逼近GPT-4o-mini

为了全面评估书生·浦语3.0的性能,研究团队基于司南OpenCompass开源评测框架,采用了CMMLU、GPQA等十多个权威评测集,涵盖了推理、数学、编程、指令跟随、长文本、对话及综合表现等多个维度。评测结果显示,书生·浦语3.0在大多数评测集得分领先,综合性能十分接近GPT-4o-mini,充分展现了其强大的性能和潜力。

通用模型融合深度思考:应对复杂真实场景

书生·浦语3.0的另一大亮点在于,它首次在通用模型中实现了常规对话与深度思考能力的融合。以往,深度思考和常规对话的数据风格差异较大,业界通常针对强推理能力单独构建专用模型。而书生·浦语3.0通过“通专融合”的技术路线,探索了不同类型数据的融合训练方案,使得单一模型同时具备了常规对话和深度思考能力。

用户可以通过系统提示词(system prompt)的控制,在两种模式间一键切换,让通用模型在应对日常对话的同时,也能胜任复杂的推理任务。这种融合不仅提高了模型的灵活性和适用性,也为通用人工智能的实现提供了新的思路。

在后训练阶段,研究团队还构建了以任务场景和知识体系驱动的合成数据探索方案,探索了基于世界知识树(World Knowledge Tree)的指令标注与合成方案,并运用基于多智能体的方式构建了高质量的回复。通过充分挖掘用户真实指令和合成指令的潜力,进行了多任务场景精细化分类,打造了数十万高质量微调指令数据集,从而大幅提升了模型的对话体验。

开源赋能创新:积极拥抱社区和国产生态

上海人工智能实验室始终秉持开源开放的理念,致力于通过高质量的开源赋能创新。除了发布书生·浦语3.0基座模型外,实验室还推出了全栈开源工具链、各类开源框架等,让产业界及开发者能够便捷地实现书生系列模型的训练、部署与应用。

同时,实验室积极拥抱国产生态,基于DeepLink开放计算体系,与昇腾、寒武纪、沐曦等算力硬件厂商开展合作,在新兴算力硬件上实现了书生·浦语3.0的微调训练与高效推理,从软硬件多角度共同促进AI生态的繁荣。

应用案例展示:从推理谜题到智能体任务

书生·浦语3.0不仅拥有强大的推理能力,还具备“高情商”和优秀的创作能力。在演示中,书生·浦语3.0成功解答了复杂的推理谜题,例如在箭头迷宫问题中,模型能够找到从起点到终点的可行路径,这需要空间理解和算法综合应用能力。此外,模型还轻松应对了经典的猜数字问题。

值得一提的是,书生·浦语3.0还将深度思考能力拓展到了智能体任务,成为了开源社区内首个支持浏览器使用的通用对话模型。例如,在买房推荐任务中,模型能够像人一样在二手房网站上进行操作和浏览,找出符合要求的房源,展现了其强大的信息挖掘和决策能力。

未来展望:推动通用人工智能发展

书生·浦语3.0的发布,不仅标志着上海人工智能实验室在大模型技术上的又一重大突破,也为整个行业带来了新的启示。通过聚焦数据质量而非单纯追求数据规模,通过融合深度思考与常规对话能力,书生·浦语3.0为通用人工智能的发展探索了一条新的道路。

随着人工智能技术的不断发展,我们有理由相信,像书生·浦语3.0这样的创新成果将不断涌现,推动人工智能在更多领域发挥更大的作用,最终造福人类社会。

相关链接:

参考文献:

  • 上海人工智能实验室官方网站
  • 司南OpenCompass开源评测框架
  • 书生·浦语3.0相关技术报告

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注