Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 麻省理工学院(MIT)联合Meta、伊利诺伊大学香槟分校等机构,近日开源了一种名为HMA(Heterogeneous Masked Autoregression,异构掩码自回归)的创新方法,用于建模机器人动作视频的动态。HMA通过异构预训练和掩码自回归技术,能够生成高质量的机器人动作视频,并在机器人学习领域展现出广泛的应用前景。

正文:

在人工智能和机器人技术领域,让机器人能够理解和预测自身及环境的动态变化,是实现更智能、更自主行为的关键一步。近日,一项由麻省理工学院(MIT)领衔,联合Meta、伊利诺伊大学香槟分校等机构的研究成果,为实现这一目标带来了新的突破。他们共同推出了HMA(Heterogeneous Masked Autoregression,异构掩码自回归),一种用于建模机器人动作视频动态的创新方法。

HMA的核心在于其异构预训练的能力。研究人员利用来自不同机器人实体、领域和任务的大量观测和动作序列数据进行预训练,这些数据涵盖了从简单到复杂的动作空间。这种异构性处理的关键在于,HMA为每个领域设计特定的动作编码器和解码器,将不同的动作空间映射到共享的潜在空间中,从而有效处理动作频率、维度和动作空间上的差异。

HMA的网络架构采用模块化设计,包括多个动作输入模块(“stem”)和动作输出模块(“head”),以及共享的核心时空变换器(“trunk”)。这种模块化架构不仅支持高效的预训练,还允许灵活的扩展,以适应不同的机器人和任务需求。

此外,HMA还采用了掩码自回归技术。在训练过程中,模型会随机掩码部分标记,并基于未掩码的标记预测掩码部分,从而学习序列的联合分布。在推理时,模型逐步取消掩码,生成未来的视频帧和动作序列。这种方法既能保证生成效率,又能保持高生成质量。

HMA提供了两种变体:离散变体连续变体。离散变体生成矢量量化标记,适用于快速生成;连续变体生成软标记,适用于高保真度生成。

HMA的主要功能和应用场景包括:

  • 视频模拟: 生成高质量的视频序列,模拟机器人在不同环境中的动作效果,用于虚拟环境中的交互和测试。
  • 策略评估: 作为高保真度的模拟器,评估机器人策略的性能,预测策略在真实环境中的表现。
  • 合成数据生成: 生成大量的合成数据,增强机器人的训练数据集,提升策略的泛化能力。
  • 模仿策略: 直接作为模仿学习的策略,预测机器人在给定观测下的动作。
  • 长期规划与控制: 支持生成长序列的视频和动作预测,助力机器人进行长期规划和模型预测控制,提升复杂任务的完成率。

HMA的开源,无疑将加速机器人学习领域的发展。研究人员和开发者可以利用HMA进行实时视频模拟、策略评估、合成数据生成和模仿学习等任务,从而推动机器人技术在各个领域的应用。

项目地址:

结论:

HMA的推出,为机器人动作视频动态建模提供了一种新的、强大的工具。其异构预训练、模块化架构和掩码自回归等技术,使其在扩展性和实时性方面表现出色。随着HMA的不断发展和应用,我们有理由相信,未来的机器人将能够更加智能、自主地完成各种复杂任务,为人类社会带来更大的便利和福祉。

参考文献:

  • Lirui Wang, et al. HMA: Heterogeneous Masked Autoregression for Robot Action Videos. arXiv preprint arXiv:2502.04296 (2025).


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注