智元发布GO-1：通用具身大模型问世

北京 – 智元机器人近日正式发布其首个通用具身基座大模型Genie Operator-1（GO-1），标志着具身智能领域迎来一项重大突破。该模型基于创新的Vision-Language-Latent-Action（ViLLA）架构，通过融合多模态大模型（VLM）和混合专家系统（MoE），显著提升了机器人在复杂环境中的适应性和操作能力。

具身智能是指赋予机器人感知、理解和行动能力，使其能够在真实物理世界中执行任务。长期以来，如何让机器人像人类一样理解环境、规划动作并有效执行，一直是该领域的核心挑战。智元此次发布的GO-1大模型，旨在通过技术创新，降低具身智能的门槛，推动其在更广泛领域的应用。

GO-1的核心在于其ViLLA架构。相较于传统的Vision-Language-Action (VLA) 架构，ViLLA引入了Latent Action Tokens（隐式动作标记）的概念，弥合了图像-文本输入与机器人动作执行之间的鸿沟。这一创新使得机器人能够更好地理解人类意图，并将其转化为精确的动作指令。

ViLLA架构由两部分组成：多模态大模型（VLM）和混合专家系统（MoE）。VLM借助海量互联网图文数据，赋予机器人通用的场景感知和语言理解能力。MoE则包含Latent Planner（隐式规划器）和Action Expert（动作专家）两个模块。Latent Planner通过学习大量跨本体和人类操作视频数据，获得通用的动作理解能力。Action Expert则通过百万真机数据，实现精细的动作执行。

智元机器人表示，GO-1大模型已经在多个机器人本体上成功部署，并在真实世界的灵巧操作和长时任务方面表现卓越，远远超过了已有的开源SOTA模型。在五种不同复杂度任务的测试中，GO-1的平均成功率提高了32%（46%->78%），尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现突出。实验还表明，ViLLA架构中的Latent Planner能够提升12%的成功率。

为了训练GO-1大模型，智元机器人构建了AgiBot World数据集，包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。该数据集为GO-1提供了丰富的学习资源，使其能够更好地理解真实世界的复杂性和多样性。

智元机器人强调，GO-1大模型具有以下四个关键特点：

人类视频学习： 能够结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解。
小样本快速泛化： 具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务。
一脑多形： 作为通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体。
持续进化： 搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习。

智元机器人通用具身基座大模型GO-1的发布，预示着具身智能正朝着通用化、开放化、智能化的方向快速迈进。随着技术的不断发展，我们有理由期待，未来的机器人将能够更好地服务于人类，并在各个领域发挥更大的作用。

参考文献

智元机器人官方网站：https://agibot-world.com/blog/agibot_go1.pdf

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

智元发布GO-1：通用具身大模型问世

作者智能小编

相关文章

Gemini 2.5升级！挑战Veo 2，AI视频大战爆发

Gemini 2.5 震撼登场：Pro、Flash 与优化器齐发！

人形机器人：资本狂涌，亿元融资成常态

发表回复取消回复

为您推荐