清华开源RDT：双臂机器人扩散模型问世

清华大学开源十亿参数双臂机器人扩散模型RDT：开启机器人自主操作新纪元

北京—— 清华大学人工智能研究院（TSAIL）近日宣布，其团队成功研发并开源了名为“RDT”（Robotics Diffusion Transformer）的双臂机器人扩散基础模型。这款拥有十亿参数的强大模型，标志着机器人技术在自主操作领域迈出了革命性的一步。RDT不仅能理解人类的自然语言指令，还能在无需人工干预的情况下，自主完成复杂的物理任务，如调酒和遛狗，其强大的泛化能力和操作精度令人瞩目。

RDT：机器人自主操作的“大脑”

RDT的核心优势在于其强大的自主任务执行能力。与传统的机器人控制系统不同，RDT无需预先编程或人工遥控，而是通过模仿学习人类动作，自主规划并完成任务。这得益于其先进的技术架构：

多模态输入编码： RDT能够同时处理语言、视觉和动作三种模态的信息。它使用经过对齐的SigLIP处理图像信息，T5-XXL语言模型理解语言指令，并采用具有傅里叶特征的多层感知机（MLP）编码动作信息。
Transformer骨干网络： RDT采用Transformer作为骨干网络，并针对机器人操作进行了关键修改，如引入QKNorm和RMSNorm来缓解传感器失灵导致的极端值问题，以及使用非线性MLP解码器来增强对非线性动力学的近似能力。
交替注入机制： 为了平衡图像和文本模态的信息，RDT采用交替注入机制，有效防止了信息淹没，确保模型能够充分利用各种输入信息。
预训练与微调： RDT在大规模的具身数据集上进行预训练，获得强大的泛化能力，并在高质量的双臂微调数据集上进行微调，进一步提升了其双臂操作能力。
统一动作空间： RDT构建了统一的动作空间，能够统一不同机器人数据的格式，使模型能够从不同数据中学习共享的物理规律。

RDT的广泛应用前景

RDT的开源不仅为学术界提供了宝贵的资源，也为各行业带来了巨大的应用潜力：

餐饮服务： RDT能够自动化调酒、烹饪和上菜等任务，提高餐饮服务业的效率和创新性。
家庭助理： RDT可以执行清洁、整理、洗衣等家务任务，甚至还能照顾宠物，如遛狗，为家庭生活带来便利。
医疗辅助： RDT能够辅助医护人员进行常规的护理工作，如分发药物、搬运医疗设备等，减轻医护人员的负担。
工业自动化： RDT可以应用于制造业中的精密装配、质量检测和物料搬运等任务，提高生产效率和产品质量。
灾难救援： RDT能够在灾难现场执行搜索和救援任务，尤其是在人类难以到达或者危险的环境中，为救援工作提供有力支持。

开源推动机器人技术发展

清华大学团队已将RDT的代码、模型和训练数据集在GitHub和HuggingFace等平台开源，为全球的研究人员和开发者提供了宝贵的资源。这一举措有望加速机器人技术的发展和应用，推动机器人自主操作进入新的时代。

RDT项目资源：

项目官网：rdt-robotics.github.io/rdt-robotics
GitHub仓库： https://github.com/thu-ml/RoboticsDiffusionTransformer
HuggingFace模型库： https://huggingface.co/robotics-diffusion-transformer/rdt-1b
*arXiv技术论文： https://arxiv.org/pdf/2410.07864

结语

清华大学开源的RDT模型，不仅展示了中国在人工智能和机器人领域的强大实力，也为全球的机器人技术发展注入了新的活力。我们有理由相信，随着RDT的不断发展和应用，未来的机器人将更加智能、自主，并将在各行各业发挥越来越重要的作用。

参考文献：

清华大学人工智能研究院TSAIL团队官方网站
RDT项目官方网站
RDT GitHub仓库
RDT HuggingFace模型库
RDT arXiv技术论文

希望这篇新闻稿符合您的要求。我尽可能地使用了清晰的语言，并确保了信息的准确性和深度。如果您有任何其他要求，请随时告诉我。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

清华开源RDT：双臂机器人扩散模型问世

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐