北京 – 智元机器人近日发布了其最新的研究成果:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。这一突破旨在解决机器人领域长期存在的难题,即机器人能够理解人类指令,却难以将其转化为实际行动。
长期以来,机器人训练面临着数据匮乏的挑战。一方面,机器人需要海量的文本和图像数据来建立对世界的认知;另一方面,它们也需要大量的动作数据,包括人类操作视频、跨本体示范视频、仿真数据以及真机示教数据。然而,现有的Vision-Language-Action (VLA) 架构主要依赖真机和合成数据,无法充分利用互联网上丰富的操作视频资源。
智元机器人将机器人训练数据划分为四个层次:大规模纯文本和图文数据、人类操作视频和其他机器人的各种操作视频、仿真的不同环境和物体、真机的示教数据。
“我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要‘翻译’成机器人能理解的语言,” 智元机器人团队表示。“因此,机器人很难做到看完人类的视频教程,脑子学会了,手学会了,直接上手做好了。”
为了解决这个问题,智元机器人推出了全新的ViLLA架构。与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),让机器人能够将人类动作视频转化为自己可执行的动作序列。这种方法使机器人能够同时获得认知和动作两个维度的训练,从而真正理解任务的“所以然”。
基于ViLLA架构,智元机器人打造了通用具身基座大模型GO-1。GO-1由VLM (语言视觉模型) 和MoE (专家混合模型) 组成,整合了视觉、语言、动作、触觉等多模态输入,规划具体动作,并直接输出机器人的动作执行序列。例如,当用户指示机器人去挂衣服时,GO-1能够指导机器人理解任务要求,分解动作步骤,适应具体环境,并最终完成操作。
GO-1大模型融会贯通了机器人训练数据的四个层次:通过学习互联网的大规模纯文本和图文数据,GO-1能够理解“挂衣服”在此情此景下的含义和要求;通过学习人类操作视频和其他机器人的各种操作视频,GO-1能够知道挂衣服通常包括哪些环节;通过学习仿真的不同衣服、不同衣柜、不同房间,模拟挂衣服的操作,GO-1能够理解环节中对应的物体和环境并打通整个任务过程;通过学习真机的示教数据,机器人能够精准完成任务。
智元机器人表示,GO-1大模型可以帮助机器人完成全面的“基础教育”和“职业教育”,让机器人具备强大的迁移学习能力。面对新场景时,机器人既有基本常识,又能根据多种多样的环境和物体,快速上手新操作。
ViLLA架构的核心在于预测Latent Action Tokens (隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。ViLLA架构由VLM (多模态大模型) + MoE (混合专家) 组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner (隐式规划器) 借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert (动作专家) 借助百万真机数据获得精细的动作执行能力。
在推理时,VLM、Latent Planner和Action Expert三者协同工作:VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP (Chain of Planning,规划链),进行通用的动作理解和规划;Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。
智元机器人表示,尽管AgiBot World数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,智元采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
这一创新有望显著降低机器人训练的成本,并加速机器人的进化速度。通过充分利用互联网上的海量视频数据,机器人将能够更快地学习和掌握各种技能,从而更好地服务于人类社会。
参考文献:
- AgiBot World. (n.d.). Retrieved from https://agibot-world.com/blog/agibot_go1.pdf
Views: 0