北京 – 智元机器人近日正式发布其首个通用具身基座大模型Genie Operator-1(GO-1),标志着具身智能领域迎来一项重大突破。该模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,通过融合多模态大模型(VLM)和混合专家系统(MoE),显著提升了机器人在复杂环境中的适应性和操作能力。
具身智能是指赋予机器人感知、理解和行动能力,使其能够在真实物理世界中执行任务。长期以来,如何让机器人像人类一样理解环境、规划动作并有效执行,一直是该领域的核心挑战。智元此次发布的GO-1大模型,旨在通过技术创新,降低具身智能的门槛,推动其在更广泛领域的应用。
GO-1的核心在于其ViLLA架构。相较于传统的Vision-Language-Action (VLA) 架构,ViLLA引入了Latent Action Tokens(隐式动作标记)的概念,弥合了图像-文本输入与机器人动作执行之间的鸿沟。这一创新使得机器人能够更好地理解人类意图,并将其转化为精确的动作指令。
ViLLA架构由两部分组成:多模态大模型(VLM)和混合专家系统(MoE)。VLM借助海量互联网图文数据,赋予机器人通用的场景感知和语言理解能力。MoE则包含Latent Planner(隐式规划器)和Action Expert(动作专家)两个模块。Latent Planner通过学习大量跨本体和人类操作视频数据,获得通用的动作理解能力。Action Expert则通过百万真机数据,实现精细的动作执行。
智元机器人表示,GO-1大模型已经在多个机器人本体上成功部署,并在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。在五种不同复杂度任务的测试中,GO-1的平均成功率提高了32%(46%->78%),尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现突出。实验还表明,ViLLA架构中的Latent Planner能够提升12%的成功率。
为了训练GO-1大模型,智元机器人构建了AgiBot World数据集,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。该数据集为GO-1提供了丰富的学习资源,使其能够更好地理解真实世界的复杂性和多样性。
智元机器人强调,GO-1大模型具有以下四个关键特点:
- 人类视频学习: 能够结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
- 小样本快速泛化: 具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务。
- 一脑多形: 作为通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。
- 持续进化: 搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。
智元机器人通用具身基座大模型GO-1的发布,预示着具身智能正朝着通用化、开放化、智能化的方向快速迈进。随着技术的不断发展,我们有理由期待,未来的机器人将能够更好地服务于人类,并在各个领域发挥更大的作用。
参考文献
Views: 0