稚晖君放大招：通用具身基座模型颠覆机器人行业！

北京 – 智元机器人近日发布了其最新的研究成果：Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。这一突破旨在解决机器人领域长期存在的难题，即机器人能够理解人类指令，却难以将其转化为实际行动。

长期以来，机器人训练面临着数据匮乏的挑战。一方面，机器人需要海量的文本和图像数据来建立对世界的认知；另一方面，它们也需要大量的动作数据，包括人类操作视频、跨本体示范视频、仿真数据以及真机示教数据。然而，现有的Vision-Language-Action (VLA) 架构主要依赖真机和合成数据，无法充分利用互联网上丰富的操作视频资源。

智元机器人将机器人训练数据划分为四个层次：大规模纯文本和图文数据、人类操作视频和其他机器人的各种操作视频、仿真的不同环境和物体、真机的示教数据。

“我们每天刷的短视频有很多可供机器人学习的操作，但不能直接用，需要‘翻译’成机器人能理解的语言，” 智元机器人团队表示。“因此，机器人很难做到看完人类的视频教程，脑子学会了，手学会了，直接上手做好了。”

为了解决这个问题，智元机器人推出了全新的ViLLA架构。与VLA架构相比，ViLLA通过预测Latent Action Tokens（隐式动作标记），让机器人能够将人类动作视频转化为自己可执行的动作序列。这种方法使机器人能够同时获得认知和动作两个维度的训练，从而真正理解任务的“所以然”。

基于ViLLA架构，智元机器人打造了通用具身基座大模型GO-1。GO-1由VLM (语言视觉模型) 和MoE (专家混合模型) 组成，整合了视觉、语言、动作、触觉等多模态输入，规划具体动作，并直接输出机器人的动作执行序列。例如，当用户指示机器人去挂衣服时，GO-1能够指导机器人理解任务要求，分解动作步骤，适应具体环境，并最终完成操作。

GO-1大模型融会贯通了机器人训练数据的四个层次：通过学习互联网的大规模纯文本和图文数据，GO-1能够理解“挂衣服”在此情此景下的含义和要求；通过学习人类操作视频和其他机器人的各种操作视频，GO-1能够知道挂衣服通常包括哪些环节；通过学习仿真的不同衣服、不同衣柜、不同房间，模拟挂衣服的操作，GO-1能够理解环节中对应的物体和环境并打通整个任务过程；通过学习真机的示教数据，机器人能够精准完成任务。

智元机器人表示，GO-1大模型可以帮助机器人完成全面的“基础教育”和“职业教育”，让机器人具备强大的迁移学习能力。面对新场景时，机器人既有基本常识，又能根据多种多样的环境和物体，快速上手新操作。

ViLLA架构的核心在于预测Latent Action Tokens (隐式动作标记)，弥合了图像-文本输入与机器人执行动作之间的鸿沟。ViLLA架构由VLM (多模态大模型) + MoE (混合专家) 组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner (隐式规划器) 借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert (动作专家) 借助百万真机数据获得精细的动作执行能力。

在推理时，VLM、Latent Planner和Action Expert三者协同工作：VLM采用InternVL-2B，接收多视角视觉图片、力觉信号、语言输入等多模态信息，进行通用的场景感知和指令理解；Latent Planner是MoE中的一组专家，基于VLM的中间层输出预测Latent Action Tokens作为CoP (Chain of Planning，规划链)，进行通用的动作理解和规划；Action Expert是MoE中的另外一组专家，基于VLM的中间层输出以及Latent Action Tokens，生成最终的精细动作序列。

智元机器人表示，尽管AgiBot World数据集已经是全球最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为此，智元采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner预测这些Latent Actions，从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

这一创新有望显著降低机器人训练的成本，并加速机器人的进化速度。通过充分利用互联网上的海量视频数据，机器人将能够更快地学习和掌握各种技能，从而更好地服务于人类社会。

参考文献：

AgiBot World. (n.d.). Retrieved from https://agibot-world.com/blog/agibot_go1.pdf

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

稚晖君放大招：通用具身基座模型颠覆机器人行业！

作者智能小编

相关文章

偏好对齐数据揭秘：清华博士解构“三驾马车”

OpenAI发布GPT-4.1：百万Token，碾压GPT-4o！

理想汽车市值腰斩，凛冬将至？

发表回复取消回复

为您推荐

小鹏智驾芯片量产：AI算力飙升，剑指300亿参数大模型