北京 – 随着人工智能技术的飞速发展,具身智能(Embodied Intelligence)正成为通往通用人工智能(AGI)的关键路径。近日,京东联合地瓜机器人、中国科学技术大学、深圳大学、松灵机器人、睿尔曼智能等多家企业和高校,共同推出了业内首个具身智能原子技能库架构,旨在突破具身操作泛化能力瓶颈,为产业应用提供高效的数据采集新范式。该项目还得到了清华大学RDT团队的技术支持。
具身智能:AGI 的必经之路
具身智能是指赋予人工智能系统以物理形态,使其能够通过与环境的交互来学习和执行任务。特斯拉的Optimus、Agility Robotics的Digit、波士顿动力的Atlas以及Figure AI等明星产品,都代表着具身智能领域的最新进展。今年春晚机器人“扭秧歌”的精彩表演,也让人们看到了具身智能的巨大潜力。
然而,尽管大模型技术为具身智能带来了新的发展机遇,但如何在有限的数据下,让机器人适应复杂场景并实现技能高效迁移,仍然是当前面临的核心挑战。
原子技能库:解决数据瓶颈的新思路
为了解决这一难题,京东探索研究院李律松、李东江博士团队发起了该项目,提出了首个基于三轮数据驱动的原子技能库构建框架。该框架的核心在于将复杂的具身操作分解为一系列可动态自定义和更新的“原子技能”,并结合数据收集与视觉-语言-动作(VLA)少样本学习,构建高效的技能库。
与传统的端到端具身操作方法相比,该框架能够有效突破数据瓶颈,提高数据效率和泛化能力。实验结果表明,该方案在数据效率和泛化能力方面表现卓越。
三轮数据驱动:动态扩展技能库
该框架采用三轮数据驱动策略,动态扩展技能库,具体流程如下:
- 任务分解: 利用视觉-语言-规划(VLP)模型将复杂任务分解为子任务。
- 语义抽象: 通过高级语义抽象模块,将子任务定义为通用的原子技能集。
- 技能构建: 结合数据收集与VLA微调,构建技能库。
通过三轮更新策略,技能库不断扩增,覆盖任务范围也随之扩大。这种方法将重点从端到端技能学习转向细颗粒度的原子技能构建,有效解决了“数据爆炸”问题,并提升了新任务的适应能力。
VLP 的关键作用
VLP模型在整个框架中扮演着至关重要的角色。它需要具备视觉感知、语言理解和空间智能等多方面的能力。为了统一训练与推理的任务分解,该团队构建了一个集成视觉感知、语言理解和空间智能的VLP Agent。
该Agent接收任务指令文本和当前观察图像,利用Prismatic生成场景描述,并通过Dino-X和SAM-2等工具,检测任务相关物体并输出边界框和精细分割掩码,最终结合GPT-4生成完整的执行计划并指定下一个子任务。
VLA 的挑战与机遇
VLA技术正在从专用数据向通用数据演进,模型参数规模也在不断扩大。然而,在通用机器人应用中,人为定义端到端任务容易导致任务穷尽问题。在单任务下,物品位置泛化、背景干扰、场景变化等因素仍然是主要挑战。
该团队提出的三轮数据驱动的原子技能库方法,可以结合SOTA VLA模型,通过高级语义抽象模块将复杂子任务映射为结构化原子技能,并结合数据收集与VLA少样本学习高效构建技能库。
构建原子技能库:数据来源与未来展望
具身操作技能学习的数据来源包括仿真数据、真实世界数据以及二者的结合。该框架旨在形成数据标准,解决当前具身智能领域数据匮乏的问题,特别是在高校与产业之间数据和范式的流动上,从而加速具身大模型研究的推进与实际落地。
该研究团队表示,未来将继续优化原子技能库架构,探索更多具身智能的应用场景,为AGI的实现贡献力量。
参考文献:
- An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation: https://arxiv.org/pdf/2501.15068
Views: 0