谷歌联手顶尖高校，AI机器人看视频学操作！

作者智能小编

10 月 16, 2024 #引导, #每日AI快讯, #视频

NEWS 新闻

引言

想象一下，你只需用语言描述一个任务，机器人就能通过观看人类演示的视频来学习并完成它。这不再是科幻小说，而是谷歌、卡内基梅隆大学和斯坦福大学联合推出的新一代机器人操作策略——Gen2Act正在实现的现实。Gen2Act通过生成人类视频来引导机器人执行新任务，突破了传统机器人学习的局限，为机器人应用开辟了新的可能性。

Gen2Act的核心技术

Gen2Act的核心在于零样本的人类视频生成，结合预训练的视频生成模型和少量的机器人交互数据训练策略。这意味着，它无需针对特定任务进行大量数据训练，就能根据语言描述的任务和场景图像，生成人类执行任务的视频。

Gen2Act的优势

零样本视频生成： Gen2Act能直接用预训练的视频生成模型，根据语言描述的任务和场景图像，生成人类执行任务的视频，无需针对特定任务进行微调。
泛化到新任务： 基于生成的人类视频引导，Gen2Act使机器人执行在训练数据中未出现过的新任务，包括操作未见过的物体类型和执行新的动作。
闭环策略执行： 结合生成的视频和机器人的实时观察，Gen2Act基于闭环策略动态调整机器人的动作，适应场景的变化准确执行任务。
长时任务处理： Gen2Act能够完成单一任务，基于任务序列的链接，执行一系列复杂的长时任务，如“制作咖啡”，涉及到多个步骤的连续操作。
减少数据需求： Gen2Act只需较少的机器人演示数据，大大降低数据收集的成本和工作量。

Gen2Act的技术原理

Gen2Act的技术原理主要包括三个步骤：

人类视频生成： 基于预训练的视频生成模型，根据语言描述的任务和场景的首帧图像，零样本生成人类执行任务的视频。
视频到动作的翻译： 基于闭环策略，将生成的人类视频转化为机器人的动作。策略用视频的视觉特征和点轨迹预测隐式编码运动信息。
视觉特征提取和点轨迹预测： 用ViT编码器和Transformer编码器从生成的视频和机器人的观察历史中提取特征，并基于轨迹预测Transformer预测视频中点的运动轨迹，辅助损失训练策略。

Gen2Act的应用场景

Gen2Act的应用场景十分广泛，包括：