Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

北京 – 智元机器人近日发布了其最新的研究成果:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。这一突破旨在解决机器人领域长期存在的难题,即机器人能够理解人类指令,却难以将其转化为实际行动。

长期以来,机器人训练面临着数据匮乏的挑战。一方面,机器人需要海量的文本和图像数据来建立对世界的认知;另一方面,它们也需要大量的动作数据,包括人类操作视频、跨本体示范视频、仿真数据以及真机示教数据。然而,现有的Vision-Language-Action (VLA) 架构主要依赖真机和合成数据,无法充分利用互联网上丰富的操作视频资源。

智元机器人将机器人训练数据划分为四个层次:大规模纯文本和图文数据、人类操作视频和其他机器人的各种操作视频、仿真的不同环境和物体、真机的示教数据。

“我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要‘翻译’成机器人能理解的语言,” 智元机器人团队表示。“因此,机器人很难做到看完人类的视频教程,脑子学会了,手学会了,直接上手做好了。”

为了解决这个问题,智元机器人推出了全新的ViLLA架构。与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),让机器人能够将人类动作视频转化为自己可执行的动作序列。这种方法使机器人能够同时获得认知和动作两个维度的训练,从而真正理解任务的“所以然”。

基于ViLLA架构,智元机器人打造了通用具身基座大模型GO-1。GO-1由VLM (语言视觉模型) 和MoE (专家混合模型) 组成,整合了视觉、语言、动作、触觉等多模态输入,规划具体动作,并直接输出机器人的动作执行序列。例如,当用户指示机器人去挂衣服时,GO-1能够指导机器人理解任务要求,分解动作步骤,适应具体环境,并最终完成操作。

GO-1大模型融会贯通了机器人训练数据的四个层次:通过学习互联网的大规模纯文本和图文数据,GO-1能够理解“挂衣服”在此情此景下的含义和要求;通过学习人类操作视频和其他机器人的各种操作视频,GO-1能够知道挂衣服通常包括哪些环节;通过学习仿真的不同衣服、不同衣柜、不同房间,模拟挂衣服的操作,GO-1能够理解环节中对应的物体和环境并打通整个任务过程;通过学习真机的示教数据,机器人能够精准完成任务。

智元机器人表示,GO-1大模型可以帮助机器人完成全面的“基础教育”和“职业教育”,让机器人具备强大的迁移学习能力。面对新场景时,机器人既有基本常识,又能根据多种多样的环境和物体,快速上手新操作。

ViLLA架构的核心在于预测Latent Action Tokens (隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。ViLLA架构由VLM (多模态大模型) + MoE (混合专家) 组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner (隐式规划器) 借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert (动作专家) 借助百万真机数据获得精细的动作执行能力。

在推理时,VLM、Latent Planner和Action Expert三者协同工作:VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP (Chain of Planning,规划链),进行通用的动作理解和规划;Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

智元机器人表示,尽管AgiBot World数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,智元采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

这一创新有望显著降低机器人训练的成本,并加速机器人的进化速度。通过充分利用互联网上的海量视频数据,机器人将能够更快地学习和掌握各种技能,从而更好地服务于人类社会。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注