清华大学开源十亿参数双臂机器人扩散模型RDT:开启机器人自主操作新纪元
北京—— 清华大学人工智能研究院(TSAIL)近日宣布,其团队成功研发并开源了名为“RDT”(Robotics Diffusion Transformer)的双臂机器人扩散基础模型。这款拥有十亿参数的强大模型,标志着机器人技术在自主操作领域迈出了革命性的一步。RDT不仅能理解人类的自然语言指令,还能在无需人工干预的情况下,自主完成复杂的物理任务,如调酒和遛狗,其强大的泛化能力和操作精度令人瞩目。
RDT:机器人自主操作的“大脑”
RDT的核心优势在于其强大的自主任务执行能力。与传统的机器人控制系统不同,RDT无需预先编程或人工遥控,而是通过模仿学习人类动作,自主规划并完成任务。这得益于其先进的技术架构:
- 多模态输入编码: RDT能够同时处理语言、视觉和动作三种模态的信息。它使用经过对齐的SigLIP处理图像信息,T5-XXL语言模型理解语言指令,并采用具有傅里叶特征的多层感知机(MLP)编码动作信息。
- Transformer骨干网络: RDT采用Transformer作为骨干网络,并针对机器人操作进行了关键修改,如引入QKNorm和RMSNorm来缓解传感器失灵导致的极端值问题,以及使用非线性MLP解码器来增强对非线性动力学的近似能力。
- 交替注入机制: 为了平衡图像和文本模态的信息,RDT采用交替注入机制,有效防止了信息淹没,确保模型能够充分利用各种输入信息。
- 预训练与微调: RDT在大规模的具身数据集上进行预训练,获得强大的泛化能力,并在高质量的双臂微调数据集上进行微调,进一步提升了其双臂操作能力。
- 统一动作空间: RDT构建了统一的动作空间,能够统一不同机器人数据的格式,使模型能够从不同数据中学习共享的物理规律。
RDT的广泛应用前景
RDT的开源不仅为学术界提供了宝贵的资源,也为各行业带来了巨大的应用潜力:
- 餐饮服务: RDT能够自动化调酒、烹饪和上菜等任务,提高餐饮服务业的效率和创新性。
- 家庭助理: RDT可以执行清洁、整理、洗衣等家务任务,甚至还能照顾宠物,如遛狗,为家庭生活带来便利。
- 医疗辅助: RDT能够辅助医护人员进行常规的护理工作,如分发药物、搬运医疗设备等,减轻医护人员的负担。
- 工业自动化: RDT可以应用于制造业中的精密装配、质量检测和物料搬运等任务,提高生产效率和产品质量。
- 灾难救援: RDT能够在灾难现场执行搜索和救援任务,尤其是在人类难以到达或者危险的环境中,为救援工作提供有力支持。
开源推动机器人技术发展
清华大学团队已将RDT的代码、模型和训练数据集在GitHub和HuggingFace等平台开源,为全球的研究人员和开发者提供了宝贵的资源。这一举措有望加速机器人技术的发展和应用,推动机器人自主操作进入新的时代。
RDT项目资源:
- 项目官网:rdt-robotics.github.io/rdt-robotics
- GitHub仓库: https://github.com/thu-ml/RoboticsDiffusionTransformer
- HuggingFace模型库: https://huggingface.co/robotics-diffusion-transformer/rdt-1b
*arXiv技术论文: https://arxiv.org/pdf/2410.07864
结语
清华大学开源的RDT模型,不仅展示了中国在人工智能和机器人领域的强大实力,也为全球的机器人技术发展注入了新的活力。我们有理由相信,随着RDT的不断发展和应用,未来的机器人将更加智能、自主,并将在各行各业发挥越来越重要的作用。
参考文献:
- 清华大学人工智能研究院TSAIL团队官方网站
- RDT项目官方网站
- RDT GitHub仓库
- RDT HuggingFace模型库
- RDT arXiv技术论文
希望这篇新闻稿符合您的要求。我尽可能地使用了清晰的语言,并确保了信息的准确性和深度。如果您有任何其他要求,请随时告诉我。
Views: 0