MIT联手Meta，HMA革新机器人动作建模！

摘要： 麻省理工学院（MIT）联合Meta、伊利诺伊大学香槟分校等机构，近日开源了一种名为HMA（Heterogeneous Masked Autoregression，异构掩码自回归）的创新方法，用于建模机器人动作视频的动态。HMA通过异构预训练和掩码自回归技术，能够生成高质量的机器人动作视频，并在机器人学习领域展现出广泛的应用前景。

正文：

在人工智能和机器人技术领域，让机器人能够理解和预测自身及环境的动态变化，是实现更智能、更自主行为的关键一步。近日，一项由麻省理工学院（MIT）领衔，联合Meta、伊利诺伊大学香槟分校等机构的研究成果，为实现这一目标带来了新的突破。他们共同推出了HMA（Heterogeneous Masked Autoregression，异构掩码自回归），一种用于建模机器人动作视频动态的创新方法。

HMA的核心在于其异构预训练的能力。研究人员利用来自不同机器人实体、领域和任务的大量观测和动作序列数据进行预训练，这些数据涵盖了从简单到复杂的动作空间。这种异构性处理的关键在于，HMA为每个领域设计特定的动作编码器和解码器，将不同的动作空间映射到共享的潜在空间中，从而有效处理动作频率、维度和动作空间上的差异。

HMA的网络架构采用模块化设计，包括多个动作输入模块（“stem”）和动作输出模块（“head”），以及共享的核心时空变换器（“trunk”）。这种模块化架构不仅支持高效的预训练，还允许灵活的扩展，以适应不同的机器人和任务需求。

此外，HMA还采用了掩码自回归技术。在训练过程中，模型会随机掩码部分标记，并基于未掩码的标记预测掩码部分，从而学习序列的联合分布。在推理时，模型逐步取消掩码，生成未来的视频帧和动作序列。这种方法既能保证生成效率，又能保持高生成质量。

HMA提供了两种变体：离散变体和连续变体。离散变体生成矢量量化标记，适用于快速生成；连续变体生成软标记，适用于高保真度生成。

HMA的主要功能和应用场景包括：

视频模拟： 生成高质量的视频序列，模拟机器人在不同环境中的动作效果，用于虚拟环境中的交互和测试。
策略评估： 作为高保真度的模拟器，评估机器人策略的性能，预测策略在真实环境中的表现。
合成数据生成： 生成大量的合成数据，增强机器人的训练数据集，提升策略的泛化能力。
模仿策略： 直接作为模仿学习的策略，预测机器人在给定观测下的动作。
长期规划与控制： 支持生成长序列的视频和动作预测，助力机器人进行长期规划和模型预测控制，提升复杂任务的完成率。

HMA的开源，无疑将加速机器人学习领域的发展。研究人员和开发者可以利用HMA进行实时视频模拟、策略评估、合成数据生成和模仿学习等任务，从而推动机器人技术在各个领域的应用。

项目地址：

项目官网：https://liruiw.github.io/hma/
GitHub仓库：https://github.com/liruiw/HMA
HuggingFace模型库：https://huggingface.co/liruiw/hma-base-disc
arXiv技术论文：https://arxiv.org/pdf/2502.04296
在线体验Demo：https://huggingface.co/spaces/liruiw/hma

结论：

HMA的推出，为机器人动作视频动态建模提供了一种新的、强大的工具。其异构预训练、模块化架构和掩码自回归等技术，使其在扩展性和实时性方面表现出色。随着HMA的不断发展和应用，我们有理由相信，未来的机器人将能够更加智能、自主地完成各种复杂任务，为人类社会带来更大的便利和福祉。

参考文献：

Lirui Wang, et al. HMA: Heterogeneous Masked Autoregression for Robot Action Videos. arXiv preprint arXiv:2502.04296 (2025).

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

MIT联手Meta，HMA革新机器人动作建模！

作者智能小编

相关文章

Sports Brands Go Big Outsizing Luxury with Mega-Stores

TikTok劲敌？两天MVP估值5亿，资本狂涌！

运动品牌“巨无霸”店来袭，奢侈品都得让路？

发表回复取消回复

为您推荐