人工智能正朝着更智能、更自主的方向发展,但如何让AI像人类一样,在不断学习中积累知识、避免“灾难性遗忘”,一直是研究人员面临的挑战。近日,慕尼黑大学与南京大学的研究团队联手打造了一款机器人终身强化学习框架,为解决这一难题带来了曙光。
北京 – 人工智能(AI)在特定领域的卓越表现已毋庸置疑,但其在终身学习能力上的欠缺,却阻碍了其向通用智能的迈进。人类可以在一生中不断积累知识,并发展出越来越复杂的行为和技能,这种能力被称为“终身学习”,被认为是构成通用智能的基本机制。然而,目前的人工智能往往在学习新任务时,会忘记之前学到的知识,这种现象被称为“灾难性遗忘”。
为了打破这一“遗忘诅咒”,慕尼黑大学与南京大学的研究团队另辟蹊径,共同开发了一款机器人终身强化学习框架。该框架的核心在于构建一个受贝叶斯非参数域启发的知识空间,旨在模拟人类大脑中知识的存储和组织方式。通过这种方式,AI代理可以从连续的一次性喂养任务流中持续积累知识,并在面对新任务时,能够组合和重新应用之前学到的知识。
该研究成果以“Preserving and combining knowledge in robotic lifelong reinforcement learning”为题,于2025年2月5日发表在国际顶级期刊《Nature Machine Intelligence》上。
LEGION框架:知识的守护者
研究团队将他们的框架命名为LEGION,即一种基于语言嵌入的具有非参数贝叶斯的生成增量非策略强化学习框架。LEGION框架通过以下几个关键机制,实现了知识的有效保存和利用:
- 语言集成: 将语言集成嵌入到框架中,以增强代理对任务的语义理解,使其能够更好地理解任务的目标和约束。
- 非参数贝叶斯知识空间: 构建一个非参数贝叶斯知识空间,用于存储和组织学习到的知识。该空间可以根据新任务的需求动态调整,从而实现知识的增量学习和扩展。
- 知识组合与重用: 代理可以通过组合和重新应用其从原始任务流中获得的知识来处理具有挑战性的现实世界长期任务。
实验验证:从机械臂到复杂任务
为了验证LEGION框架的有效性,研究团队进行了大量的实验。在长距离任务中,他们采用了KUKA iiwa机械臂作为实施例,并使用全局RealSense摄像头来获取视觉信息。实验结果表明,该框架能够使机械臂从一次性喂养任务流中学习,并重新组合底层知识,从而有效地完成多样化和具有挑战性的任务。
此外,研究团队还观察到了积极的向前转移现象。例如,对于“抽屉关闭”任务,早期从“推”、“拾取-放置”和“开门”等任务中获得的知识有助于“抽屉关闭”的成功。这表明LEGION框架不仅能够避免遗忘,还能够促进知识的迁移和应用。
未来展望:通用智能的基石
该研究的负责人表示,LEGION框架展示了实现通用智能的潜力,并可能激发开发更广泛适用的智能代理。通过使用非参数知识空间从一系列任务中不断学习和保留技能,结合扩散模型的平滑和稳定的下游动作输出,可以为开发广泛适用的大型行为模型提供更加强大的动力。
此外,研究团队还提出了一个有前景的探索方向,即使用大型语言模型(LLM)在终身学习过程中不断完善奖励。
参考文献:
- Preserving and combining knowledge in robotic lifelong reinforcement learning. Nature Machine Intelligence, 2025, 7(2), 163-173. https://www.nature.com/articles/s42256-024-00797-x
结语:
慕尼黑-南大团队的这项研究,为解决人工智能的“遗忘诅咒”问题迈出了重要一步。LEGION框架的提出,不仅为机器人终身学习提供了新的思路,也为通用人工智能的发展奠定了基础。我们有理由相信,在不久的将来,人工智能将能够像人类一样,在不断学习中积累知识,并在各个领域发挥更大的作用。
Views: 0