北大领衔,多智能体强化学习研究登上Nature子刊,为大规模系统决策提供新思路

近日,由北京大学人工智能研究院杨耀东课题组牵头完成的研究成果——“大规模多智能体系统的高效强化学习”在人工智能顶级学术期刊《Nature MachineIntelligence》上发表。该研究首次在大规模多智能体系统中实现了高效的去中心化协同训练和决策,显著提升了人工智能决策模型在大规模多智能体系统中的扩展性和适用性。

突破传统局限,实现大规模系统高效决策

在大规模多智能体系统中实现高效的可扩展决策是人工智能领域发展的重要目标之一。多智能体系统主要以庞大的智能体交互数据为基础,利用大量计算资源驱动每个智能体学习如何与其他智能体合作执行复杂任务,其核心范式是多智能体强化学习。然而,现有的两种主要学习范式——中心化学习和独立学习,都存在着局限性。

中心化学习要求每个智能体都具有全局观察能力,这大幅度增加了算法复杂性和通信成本,降低了在大规模系统中的可扩展性。而独立学习虽然降低了系统和算法的复杂性,但学习过程往往不稳定,导致决策性能较差。

解耦系统动力学,构建更通用网络化模型

为了克服这些挑战,北大研究团队对大规模多智能体系统进行了以智能体为单位的动力学特性的解耦,将智能体之间的关系描述为一种拓扑连接结构下的网络化关系,降低了系统处理的复杂性。

在此基础上,研究团队进一步提出了一种更通用的网络化系统模型,用来刻画解耦后多智能体系统的动力学和真实系统动力学之间的关系。该模型能够处理更广泛的合作多智能体任务,弥合了标准网络系统和一般多代理系统之间的差距,为去中心化多智能体系统的研究提供了必要的理论框架和分析工具。

模型学习与策略优化相结合,实现高效扩展

基于这种更一般化的网络系统,研究团队将单智能体学习中的模型学习理论扩展到多智能体系统中,使智能体能够独立学习局部状态转移、邻域信息价值和去中心化策略,将复杂的大规模决策难题转化为更容易求解的优化问题。

研究团队将本地化模型学习与去中心化策略优化相耦合,提出了一个基于模型的去中心化策略优化方法。该方法高效且可扩展,在较小的本地信息大小下就能近似单调的提升智能体策略。

多项测试验证,展现应用潜力

多项测试结果表明,该方法能够扩展到具有数百个智能体的大规模电网和交通等网络化系统中,在较低的通信成本下实现较高的决策性能。例如,在智能交通控制场景中,使用了该方法控制的信号灯能够仅通过接收相邻路口的车流信息调控复杂的交通流,并在智能电网中实现较低的电能损耗。

未来展望:赋能具身智能,推动科技成果转化

研究团队负责人杨耀东表示,未来将继续深入推进多智能体学习理论与方法的研究,并赋能具身智能和世界模型等前沿人工智能领域,显著提升更广泛的智能系统在协作、预测和决策方面的能力,使其在复杂动态环境中更加灵活高效地执行任务。同时,他们还将推动这些研究成果在智能交通、智慧电网等领域的应用,促进科技成果的快速转化,为社会创造更大价值。

这项研究为解决大规模多智能体系统决策难题提供了新的思路和方法,为人工智能在更广泛领域的应用奠定了基础,并为推动科技成果转化和社会进步贡献力量。


read more

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注