华盛顿/北京 – 人工智能领域正在经历一场深刻的变革,而强化学习(RL)作为其中的关键分支,也迎来了新的突破。近日,普林斯顿大学和华沙理工大学的研究人员联合发布了一项引人注目的研究,表明通过将对比强化学习(CRL)扩展到前所未有的1000层网络,可以显著提升机器人任务的性能,最高可达50倍。这一发现挑战了传统RL模型的浅层结构,为未来的研究方向开辟了新的道路。
长期以来,强化学习主要依赖于浅层多层感知器(MLP),通常只有2-5层。然而,随着深度学习在其他人工智能领域的蓬勃发展,如拥有数百层结构的Llama 3和Stable Diffusion 3,研究人员开始探索RL中是否存在类似的能力涌现现象,即模型在规模达到一定临界值时才能获得解决特定任务的能力。
这项发表在预印本网站arXiv上的研究(https://arxiv.org/abs/2503.14858)以及开源在GitHub上的代码(https://github.com/wang-kevin3290/scaling-crl),详细阐述了研究团队如何通过结合自监督学习和强化学习,并利用GPU加速框架增加数据量,最终成功训练出深度高达1024层的RL模型。
研究团队在三个关键方面进行了创新:
- 范式融合: 将强化学习和自监督学习相结合,形成自监督强化学习系统,采用对比强化学习(Contrastive RL, CRL)算法。
- 增加数据量: 通过近期的 GPU 加速强化学习框架增加可用数据量。
- 网络深度突破: 将网络深度增加到比先前工作深 100 倍,并融合多种架构技术稳定训练过程,包括:残差连接(Residual Connections)、层归一化(Layer Normalization)、Swish 激活函数。
研究结果令人振奋。在虚拟环境中,研究人员观察到随着网络深度的增加,强化学习智能体出现了新的行为模式。例如,在深度为4时,人形机器人会直接向目标坠落,但在深度为16时,它学会了直立行走。更令人惊讶的是,在人形机器人U-Maze环境中,深度达到256时,智能体甚至学会了越过迷宫高墙。
研究还发现,在具有高维输入的复杂任务中,深度扩展的优势更为明显。在扩展效果最为突出的Humanoid U-Maze环境中,研究人员测试了扩展的极限,并观察到高达1024层的性能持续提升。更深的网络不仅能够学习到更好的对比表征,还能提高AI的泛化能力,在训练期间未见过的起始-目标对上取得更高的成功率。
为了实现如此深的网络训练,研究团队采用了来自ResNet架构的残差连接,并结合层归一化和Swish激活函数,有效稳定了训练过程。他们还发现,更深的网络能够更好地利用更大批量大小带来的优势。
这项研究的主要贡献在于展示了一种将多种构建模块整合到单一强化学习方法中的方式,该方法展现出卓越的可扩展性。研究观察到性能显著提升,在半数测试环境中提升超过20倍,这对应着随模型规模增长而涌现的质变策略。
尽管拓展网络深度是以消耗计算量为代价的,但研究人员认为,使用分布式训练来提升算力,以及剪枝蒸馏是未来的扩展方向。他们预计未来研究将在此基础上,通过探索额外的构建模块来进一步发展这一方法。
这一突破性的研究不仅为强化学习领域带来了新的希望,也为机器人技术的发展开辟了新的可能性。随着计算能力的不断提升和算法的不断优化,我们有理由相信,深度强化学习将在未来的智能系统中发挥越来越重要的作用。
Views: 0