Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

ByteDance Research 推出第二代机器人大模型 GR-2,它具备世界建模能力和强大的泛化能力,预示着机器人大模型技术将迎来新的突破。

引言:

想象一个机器人,它能够理解人类的语言指令,并根据指令完成各种复杂的任务,甚至能够在未知环境中灵活地适应和学习。这并非科幻电影中的场景,而是 ByteDance Research最新发布的第二代机器人大模型 GR-2(Generative Robot 2.0)所展现的现实。GR-2 以其卓越的泛化能力和多任务通用性,为机器人技术的发展开辟了新的可能。

预训练:在互联网的海洋中“成长”

GR-2 的训练过程分为两个阶段:预训练和微调。与其他机器人模型不同,GR-2 的预训练阶段并非在模拟环境中进行,而是通过学习 3800 万个来自互联网的视频片段,涵盖了人类在各种场景下的日常活动。这个过程就像一个“快速生长痛”,让 GR-2 迅速学会了人类日常生活中的各种动态和行为模式,并构建了对世界的深刻理解。

微调:视频生成能力提升动作预测准确性

在预训练的基础上,GR-2 团队采用了一种创新的微调方法,让 GR-2 能够通过输入一帧图片和一句语言指令,预测未来的视频,并生成相应的动作轨迹。这不仅提升了GR-2 动作预测的准确性,也为机器人的智能决策提供了新的方向。

Scaling Law:机器人 + 大模型的“要诀”

在人工智能领域,Scaling Law 指的是模型性能与其规模之间的关系。对于 GR-2 这样的机器人模型来说,这一法则尤为关键。随着模型规模的增加,GR-2 的性能呈现出显著的提升,能够处理更多复杂的任务,并在泛化到未见过的任务和场景时表现得更加出色。

多任务学习与泛化:未知场景的“挑战者”

GR-2 能够完成105 项不同的桌面任务,平均成功率高达 97.7%。更重要的是,它能够面对未知场景和物体时的泛化能力。无论是全新的环境、物体还是任务,GR-2 都能够迅速适应并找到解决问题的方法。

与大语言模型结合:完成复杂的长任务

GR-2 还能够与大语言模型相结合,完成复杂的长任务,并与人类进行互动。例如,它可以根据场景中的物体,为人类制作一杯咖啡或一份烤面包,整个过程无需人类干预。

工业应用中的突破:端到端的丝滑物体拣选

GR-2 在工业应用中也展现出了巨大潜力。它能够端到端地完成两个货箱之间的物体拣选,无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体,GR-2 均能准确抓取。

结论:

GR-2 的出现标志着机器人大模型技术进入了一个新的阶段。它具备世界建模能力和强大的泛化能力,能够完成复杂的任务,并与人类进行互动。随着模型规模的不断扩大,GR-2 将在更多领域发挥重要作用,推动机器人技术的发展,并为人类的生活带来更多便利。

参考文献:

  • GR-2 官方项目页面:https://gr2-manipulation.github.io
  • ByteDance Research 官方网站:https://www.bytedance.com/research/
  • 机器之心报道:https://www.jiqizhixin.com/articles/2024/10/09/gr-2-debuts-bytedance-research-proposes-a-robotic-large-model-with-world-modeling-and-powerful-generalization-ability


>>> Read more <<<

Views: 3

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注