Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 麻省理工学院(MIT)、Meta和伊利诺伊大学香槟分校联合开源了一种名为HMA(Heterogeneous Masked Autoregression)的创新方法,用于建模机器人动作视频的动态过程。HMA通过异构预训练和掩码自回归技术,能够生成高质量的机器人动作视频,并在机器人学习领域展现出广阔的应用前景,例如视频模拟、策略评估、合成数据生成以及模仿学习等。

北京时间[当前日期]讯,人工智能领域迎来一项重要进展。由麻省理工学院(MIT)、Meta和伊利诺伊大学香槟分校的研究人员联合开发,并开源的机器人动作视频动态建模方法HMA,为机器人学习和控制带来了新的可能性。该研究成果不仅在学术界引起广泛关注,也预示着机器人技术将在工业、科研等领域迎来更智能、更高效的应用。

HMA:异构预训练与掩码自回归的结合

HMA的核心在于其异构预训练方法。研究人员利用来自不同机器人实体、领域和任务的大量观测和动作序列数据,对模型进行预训练。这些数据涵盖了从简单到复杂的动作空间,使HMA能够更好地理解和模拟各种机器人行为。

为了处理动作空间的异构性,HMA采用了模块化的网络架构,包括动作输入模块(“stem”)、动作输出模块(“head”)以及共享的核心时空变换器(“trunk”)。这种架构允许模型为每个领域设计特定的动作编码器和解码器,将不同的动作空间映射到共享的潜在空间中,从而有效地处理动作频率、维度和动作空间上的差异。

此外,HMA还采用了掩码自回归技术。在训练过程中,模型会随机掩码部分标记,并基于未掩码的标记预测掩码部分,从而学习序列的联合分布。在推理时,模型逐步取消掩码,生成未来的视频帧和动作序列。HMA支持离散和连续两种变体,分别适用于快速生成和高保真度生成。

HMA的应用前景

HMA在机器人学习领域具有广泛的应用前景:

  • 视频模拟: HMA能够生成高质量的视频序列,模拟机器人在不同环境中的动作效果,从而用于虚拟环境中的交互和测试。
  • 策略评估: HMA可以作为高保真度的模拟器,评估机器人策略的性能,预测策略在真实环境中的表现。
  • 合成数据生成: HMA能够生成大量的合成数据,增强机器人的训练数据集,提升策略的泛化能力。尤其是在数据稀缺的情况下,HMA的优势更为明显。
  • 模仿策略: HMA可以直接作为模仿学习的策略,预测机器人在给定观测下的动作,从而快速响应环境变化,提高任务执行效率。
  • 长期规划与控制: HMA支持生成长序列的视频和动作预测,助力机器人进行长期规划和模型预测控制,提升复杂任务的完成率。

专家观点

“HMA的出现,为机器人学习领域注入了新的活力,”一位不愿透露姓名的机器人专家表示,“它不仅能够生成高质量的机器人动作视频,还能够用于策略评估、合成数据生成以及模仿学习等多个方面。HMA的开源,将有助于推动机器人技术的快速发展。”

未来展望

HMA的成功,标志着机器人动作视频动态建模领域取得了重要进展。随着技术的不断发展,HMA有望在工业自动化、智能家居、医疗机器人等领域发挥更大的作用。

项目地址

参考文献

  • Lirui Wang, et al. HMA: Heterogeneous Masked Autoregression for Robot Action Videos. arXiv preprint arXiv:2502.04296 (2025).

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注