上海 – 人工智能(AI)领域正迎来新的突破口。上海交通大学的研究团队近日提出,通过构建“语言游戏”(Language Games),有望打破当前大语言模型(LLM)面临的“数据再生产陷阱”,从而推动AI向更开放、更强大的智能形态演进。
这项研究由上海交通大学的温颖、万梓煜与张劭共同完成,相关论文《Language Games as the Pathway to Artificial Superhuman Intelligence》已发布在预印本平台arXiv上(https://arxiv.org/abs/2501.18924)。该研究的核心观点是,要让AI摆脱对封闭数据的依赖,需要引入动态、开放的互动框架,让模型在持续的“自我进化”中接触真正的新颖内容。
“数据再生产陷阱”:AI发展的瓶颈
当前,大语言模型的训练通常依赖于海量文本和结构化信息。模型在训练后,通过用户使用、在线对话等方式生成新的数据,这些数据经过筛选后又被用于再次训练,形成一个“循环”。研究者将这个循环过程称为“数据再生产”。
然而,这种训练模式存在一个潜在的“数据再生产陷阱”。在训练后期,模型往往只关注人类先验的“正确输出”或“喜好”,并以固定的标注数据或静态文本作为“训练教材”。长期以往,模型只会在既定知识范围内反复打转,难以真正创造“新的想法”或进行跨领域的深度推理。
“一旦陷入这类高重复性的数据循环,模型将持续强化固有模式和偏见,逐渐丧失对未知和新颖领域的探究动力,”研究人员指出,“在一个闭环空间内无限循环的‘数据强化’过程,反而阻止了模型质的飞跃。”
“语言游戏”:突破瓶颈的关键
为了打破“数据再生产陷阱”,研究团队提出了“语言游戏”的概念。该概念源自哲学家维特根斯坦,指的是语言的意义在于使用场景。研究者将其延伸到AI对话和多智能体交互中,形成一种动态、开放的互动框架。
在这种对话式、开放式的“游戏”中,模型可以持续产出多种多样的对话数据、语言表达以及推理路径,进而使模型所接触到的语言世界不断丰富、扩张,形成“扩大化的数据再生产”。
“语言游戏”的核心机制
研究人员提出了三个核心机制,以确保“语言游戏”能够真正避免数据循环的同质化:
- 角色流动性(Role Fluidity): 模型/人类可以在教师、学生、质疑者、解题者等不同身份间转换。不断变化的身份视角,生成的语言数据更具多样性,也让模型不断接收和输出跨场景、跨任务的对话。
- 奖励多样性(Reward Variety): 不再以单一“对/错”或“人类喜好”作为标准,而是综合考虑逻辑、一致性、创意、实用度、文化敏感度等多重维度。模型在这套复杂的评价体系下,需要多维度平衡和创新,更能挖掘深层潜力。
- 规则可塑性(Rule Plasticity): 游戏的规则、场景、文化背景等可以迭代演化,迫使模型不断适应和学习新的约束。通过迭代引入新语言、新文化设定,持续冲击模型的既有分布,让它逐渐形成“开放式”的学习能力。
通过这三个机制的结合,模型将不再停留在对已有训练数据的重复理解,而是被持续“推”向新的未知领域。
强化学习与“语言游戏”的融合
研究人员认为,如果说“语言游戏”为大语言模型提供了一个多角色、多任务的全新互动场域,那么强化学习(RL)便是用来“驱动”这些互动、并在持续演化中最大化某种奖励的核心算法工具。通过设置合理且丰富的奖励信号,并在可学习且开放的环境中反复试验与交互,模型/智能更替就有机会进化出非常复杂和高阶的能力。
展望未来
上海交通大学的这项研究为AI的发展提供了一条新的思路。通过构建“语言游戏”,让大语言模型在动态、开放的环境中持续学习和进化,有望打破“数据再生产陷阱”,最终实现更开放、更强大的超人智能。
参考文献
- Wen, Y., Wan, Z., & Zhang, S. (2025). Language Games as the Pathway to Artificial Superhuman Intelligence. arXiv preprint arXiv:2501.18924. Retrieved from https://arxiv.org/abs/2501.18924
Views: 0