Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

新闻报道新闻报道
0

北京 – 智元机器人近日正式发布其首个通用具身基座大模型Genie Operator-1(GO-1),标志着具身智能领域迎来一项重大突破。该模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,通过融合多模态大模型(VLM)和混合专家系统(MoE),显著提升了机器人在复杂环境中的适应性和操作能力。

具身智能是指赋予机器人感知、理解和行动能力,使其能够在真实物理世界中执行任务。长期以来,如何让机器人像人类一样理解环境、规划动作并有效执行,一直是该领域的核心挑战。智元此次发布的GO-1大模型,旨在通过技术创新,降低具身智能的门槛,推动其在更广泛领域的应用。

GO-1的核心在于其ViLLA架构。相较于传统的Vision-Language-Action (VLA) 架构,ViLLA引入了Latent Action Tokens(隐式动作标记)的概念,弥合了图像-文本输入与机器人动作执行之间的鸿沟。这一创新使得机器人能够更好地理解人类意图,并将其转化为精确的动作指令。

ViLLA架构由两部分组成:多模态大模型(VLM)和混合专家系统(MoE)。VLM借助海量互联网图文数据,赋予机器人通用的场景感知和语言理解能力。MoE则包含Latent Planner(隐式规划器)和Action Expert(动作专家)两个模块。Latent Planner通过学习大量跨本体和人类操作视频数据,获得通用的动作理解能力。Action Expert则通过百万真机数据,实现精细的动作执行。

智元机器人表示,GO-1大模型已经在多个机器人本体上成功部署,并在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。在五种不同复杂度任务的测试中,GO-1的平均成功率提高了32%(46%->78%),尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现突出。实验还表明,ViLLA架构中的Latent Planner能够提升12%的成功率。

为了训练GO-1大模型,智元机器人构建了AgiBot World数据集,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。该数据集为GO-1提供了丰富的学习资源,使其能够更好地理解真实世界的复杂性和多样性。

智元机器人强调,GO-1大模型具有以下四个关键特点:

  • 人类视频学习: 能够结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
  • 小样本快速泛化: 具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务。
  • 一脑多形: 作为通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。
  • 持续进化: 搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。

智元机器人通用具身基座大模型GO-1的发布,预示着具身智能正朝着通用化、开放化、智能化的方向快速迈进。随着技术的不断发展,我们有理由期待,未来的机器人将能够更好地服务于人类,并在各个领域发挥更大的作用。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注