最新消息最新消息

清华大学开源十亿参数双臂机器人扩散模型RDT,开启机器人自主操作新纪元

北京 — 近日,清华大学人工智能研究院(TSAIL)团队宣布开源其研发的全球最大双臂机器人操作任务扩散基础模型——RDT(Robotics Diffusion Transformer)。这款拥有十亿参数的强大模型,标志着机器人自主操作技术迈入新的里程碑,引发了全球人工智能和机器人领域的广泛关注。

RDT模型的核心突破在于其强大的自主任务执行能力。不同于以往需要人类远程操控的机器人,RDT能够基于模仿学习人类动作,自主完成复杂的物理任务,例如调酒和遛狗。更令人瞩目的是,RDT具备出色的泛化能力和操作精度,即使面对从未见过的物体和场景,也能高效完成任务。

RDT的技术原理:多模态融合与创新架构

RDT的技术核心在于其多模态输入编码和Transformer骨干网络。该模型巧妙地融合了语言、视觉和动作三种模态的信息,并通过不同的编码方式进行处理:

  • 动作编码: 采用具有傅里叶特征的多层感知机(MLP),捕捉动作的细微变化。
  • 图片编码: 基于经过对齐的SigLIP模型,提取图像中的关键信息。
  • 语言编码: 使用T5-XXL语言模型,理解人类的自然语言指令。

此外,RDT的Transformer骨干网络针对机器人操作进行了关键修改,包括:

  • QKNorm和RMSNorm: 缓解传感器失灵导致的极端值问题,增强模型的鲁棒性。
  • 非线性MLP解码器: 增强对非线性动力学的近似能力,提高操作精度。
  • 交替注入: 平衡图像和文本模态,防止信息淹没,确保模型充分利用多模态信息。

为了提升模型的泛化能力,RDT首先在大规模的具身数据集上进行预训练,然后基于高质量的双臂微调数据集进行微调,从而增强双臂操作能力。此外,该模型还构建了统一的动作空间,统一不同机器人数据的格式,让模型从不同数据中学习共享的物理规律。

RDT的应用前景:从餐饮服务到灾难救援

RDT的开源不仅为学术研究提供了强大的工具,更预示着机器人技术在多个领域的广泛应用前景:

  • 餐饮服务: 自动化调酒、烹饪和上菜,提高餐饮服务业的效率和创新性。
  • 家庭助理: 执行清洁、整理、洗衣等家务任务,甚至照顾宠物,如遛狗。
  • 医疗辅助: 辅助医护人员进行常规护理工作,如分发药物、搬运医疗设备。
  • 工业自动化: 在制造业中进行精密装配、质量检测和物料搬运。
  • 灾难救援: 在危险环境中执行搜索和救援任务,提高救援效率。

开源推动机器人技术发展

清华大学团队已将RDT的代码、模型和训练数据集开源,旨在推动机器人技术的发展和应用。这一举措将吸引全球研究人员和开发者共同参与,加速机器人技术的创新和突破。

项目地址:

结论:

RDT的开源标志着机器人自主操作技术迈向新的高度。其强大的泛化能力、操作精度和多模态融合技术,为机器人技术的广泛应用奠定了坚实的基础。随着RDT的不断发展和完善,我们有理由相信,未来的机器人将在更多领域发挥重要作用,为人类带来更便捷、更智能的生活体验。

参考文献:

  • 清华大学人工智能研究院TSAIL团队官方网站
  • RDT项目官方网站
  • RDT GitHub仓库
  • RDT HuggingFace模型库
  • RDT arXiv技术论文

(本文由资深新闻记者和编辑撰写,所有信息均经过核实,并引用可靠来源。)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注