Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海 – 人工智能(AI)领域正迎来新的突破口。上海交通大学的研究团队近日提出,通过构建“语言游戏”(Language Games),有望打破当前大语言模型(LLM)面临的“数据再生产陷阱”,从而推动AI向更开放、更强大的智能形态演进。

这项研究由上海交通大学的温颖、万梓煜与张劭共同完成,相关论文《Language Games as the Pathway to Artificial Superhuman Intelligence》已发布在预印本平台arXiv上(https://arxiv.org/abs/2501.18924)。该研究的核心观点是,要让AI摆脱对封闭数据的依赖,需要引入动态、开放的互动框架,让模型在持续的“自我进化”中接触真正的新颖内容。

“数据再生产陷阱”:AI发展的瓶颈

当前,大语言模型的训练通常依赖于海量文本和结构化信息。模型在训练后,通过用户使用、在线对话等方式生成新的数据,这些数据经过筛选后又被用于再次训练,形成一个“循环”。研究者将这个循环过程称为“数据再生产”。

然而,这种训练模式存在一个潜在的“数据再生产陷阱”。在训练后期,模型往往只关注人类先验的“正确输出”或“喜好”,并以固定的标注数据或静态文本作为“训练教材”。长期以往,模型只会在既定知识范围内反复打转,难以真正创造“新的想法”或进行跨领域的深度推理。

“一旦陷入这类高重复性的数据循环,模型将持续强化固有模式和偏见,逐渐丧失对未知和新颖领域的探究动力,”研究人员指出,“在一个闭环空间内无限循环的‘数据强化’过程,反而阻止了模型质的飞跃。”

“语言游戏”:突破瓶颈的关键

为了打破“数据再生产陷阱”,研究团队提出了“语言游戏”的概念。该概念源自哲学家维特根斯坦,指的是语言的意义在于使用场景。研究者将其延伸到AI对话和多智能体交互中,形成一种动态、开放的互动框架。

在这种对话式、开放式的“游戏”中,模型可以持续产出多种多样的对话数据、语言表达以及推理路径,进而使模型所接触到的语言世界不断丰富、扩张,形成“扩大化的数据再生产”。

“语言游戏”的核心机制

研究人员提出了三个核心机制,以确保“语言游戏”能够真正避免数据循环的同质化:

  1. 角色流动性(Role Fluidity): 模型/人类可以在教师、学生、质疑者、解题者等不同身份间转换。不断变化的身份视角,生成的语言数据更具多样性,也让模型不断接收和输出跨场景、跨任务的对话。
  2. 奖励多样性(Reward Variety): 不再以单一“对/错”或“人类喜好”作为标准,而是综合考虑逻辑、一致性、创意、实用度、文化敏感度等多重维度。模型在这套复杂的评价体系下,需要多维度平衡和创新,更能挖掘深层潜力。
  3. 规则可塑性(Rule Plasticity): 游戏的规则、场景、文化背景等可以迭代演化,迫使模型不断适应和学习新的约束。通过迭代引入新语言、新文化设定,持续冲击模型的既有分布,让它逐渐形成“开放式”的学习能力。

通过这三个机制的结合,模型将不再停留在对已有训练数据的重复理解,而是被持续“推”向新的未知领域。

强化学习与“语言游戏”的融合

研究人员认为,如果说“语言游戏”为大语言模型提供了一个多角色、多任务的全新互动场域,那么强化学习(RL)便是用来“驱动”这些互动、并在持续演化中最大化某种奖励的核心算法工具。通过设置合理且丰富的奖励信号,并在可学习且开放的环境中反复试验与交互,模型/智能更替就有机会进化出非常复杂和高阶的能力。

展望未来

上海交通大学的这项研究为AI的发展提供了一条新的思路。通过构建“语言游戏”,让大语言模型在动态、开放的环境中持续学习和进化,有望打破“数据再生产陷阱”,最终实现更开放、更强大的超人智能。

参考文献

  • Wen, Y., Wan, Z., & Zhang, S. (2025). Language Games as the Pathway to Artificial Superhuman Intelligence. arXiv preprint arXiv:2501.18924. Retrieved from https://arxiv.org/abs/2501.18924


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注