摘要: 麻省理工学院(MIT)联合Meta、伊利诺伊大学香槟分校等机构,近日开源了一种名为HMA(Heterogeneous Masked Autoregression,异构掩码自回归)的创新方法,用于建模机器人动作视频的动态。HMA通过异构预训练和掩码自回归技术,能够生成高质量的机器人动作视频,并在机器人学习领域展现出广泛的应用前景。
正文:
在人工智能和机器人技术领域,让机器人能够理解和预测自身及环境的动态变化,是实现更智能、更自主行为的关键一步。近日,一项由麻省理工学院(MIT)领衔,联合Meta、伊利诺伊大学香槟分校等机构的研究成果,为实现这一目标带来了新的突破。他们共同推出了HMA(Heterogeneous Masked Autoregression,异构掩码自回归),一种用于建模机器人动作视频动态的创新方法。
HMA的核心在于其异构预训练的能力。研究人员利用来自不同机器人实体、领域和任务的大量观测和动作序列数据进行预训练,这些数据涵盖了从简单到复杂的动作空间。这种异构性处理的关键在于,HMA为每个领域设计特定的动作编码器和解码器,将不同的动作空间映射到共享的潜在空间中,从而有效处理动作频率、维度和动作空间上的差异。
HMA的网络架构采用模块化设计,包括多个动作输入模块(“stem”)和动作输出模块(“head”),以及共享的核心时空变换器(“trunk”)。这种模块化架构不仅支持高效的预训练,还允许灵活的扩展,以适应不同的机器人和任务需求。
此外,HMA还采用了掩码自回归技术。在训练过程中,模型会随机掩码部分标记,并基于未掩码的标记预测掩码部分,从而学习序列的联合分布。在推理时,模型逐步取消掩码,生成未来的视频帧和动作序列。这种方法既能保证生成效率,又能保持高生成质量。
HMA提供了两种变体:离散变体和连续变体。离散变体生成矢量量化标记,适用于快速生成;连续变体生成软标记,适用于高保真度生成。
HMA的主要功能和应用场景包括:
- 视频模拟: 生成高质量的视频序列,模拟机器人在不同环境中的动作效果,用于虚拟环境中的交互和测试。
- 策略评估: 作为高保真度的模拟器,评估机器人策略的性能,预测策略在真实环境中的表现。
- 合成数据生成: 生成大量的合成数据,增强机器人的训练数据集,提升策略的泛化能力。
- 模仿策略: 直接作为模仿学习的策略,预测机器人在给定观测下的动作。
- 长期规划与控制: 支持生成长序列的视频和动作预测,助力机器人进行长期规划和模型预测控制,提升复杂任务的完成率。
HMA的开源,无疑将加速机器人学习领域的发展。研究人员和开发者可以利用HMA进行实时视频模拟、策略评估、合成数据生成和模仿学习等任务,从而推动机器人技术在各个领域的应用。
项目地址:
- 项目官网:https://liruiw.github.io/hma/
- GitHub仓库:https://github.com/liruiw/HMA
- HuggingFace模型库:https://huggingface.co/liruiw/hma-base-disc
- arXiv技术论文:https://arxiv.org/pdf/2502.04296
- 在线体验Demo:https://huggingface.co/spaces/liruiw/hma
结论:
HMA的推出,为机器人动作视频动态建模提供了一种新的、强大的工具。其异构预训练、模块化架构和掩码自回归等技术,使其在扩展性和实时性方面表现出色。随着HMA的不断发展和应用,我们有理由相信,未来的机器人将能够更加智能、自主地完成各种复杂任务,为人类社会带来更大的便利和福祉。
参考文献:
- Lirui Wang, et al. HMA: Heterogeneous Masked Autoregression for Robot Action Videos. arXiv preprint arXiv:2502.04296 (2025).
Views: 0