视频生成模型变身智能体:斯坦福 Percy Liang 等提出 VideoAgent,竟能自我优化
近年来,「文本生视频」赛道蓬勃发展,其应用场景涵盖创意视频内容生成、游戏场景构建、动画和电影制作等领域。 甚至有研究表明,视频生成模型还能用作真实世界的模拟器,例如 OpenAI 今年初发布的 Sora 技术,将视频生成模型作为数据驱动物理引擎。
文本生视频模型的这些应用,不仅有望实现互联网规模级别的知识迁移,还可能为通用智能体的实现铺平道路。 然而,现阶段文本生视频模型的下游应用仍然有限,主要原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。
为了解决这些问题,一个多所机构的研究团队提出了 VideoAgent,一种能够自我优化的视频智能体。 VideoAgent 利用来自视觉 – 语言模型 (VLM)的 AI 反馈和真实世界执行反馈,迭代式地优化生成的视频规划。
该研究由斯坦福大学 Percy Liang 教授团队主导,论文发表在 arXiv 上,并已开源代码。 论文地址:https://arxiv.org/pdf/2410.10076 代码地址:https://github.com/Video-as-Agent/VideoAgent
VideoAgent 的核心思路是将视频生成模型与视频优化模型结合,并通过两种反馈机制实现自我提升:
- 自我调节一致性 (self-conditioning consistency):利用视频扩散模型的低质量样本,通过一致性模型将其优化成高质量样本。
- 在线微调: 在执行视频策略的过程中,收集环境反馈和成功轨迹,进一步微调视频生成模型。
VideoAgent 的工作流程如下:
- 生成视频规划: 根据语言描述和初始图像,生成一个视频规划。
- 视频优化: 使用视频优化模型和 VLM 反馈,迭代式地优化视频规划。
- 执行视频规划: 将视频规划转换成运动控制指令,在真实环境中执行。
- 收集反馈: 收集环境反馈和成功轨迹,用于进一步微调视频生成模型。
实验结果表明,VideoAgent 在多个数据集上取得了显著的提升,包括:
- 端到端成功率: VideoAgent 在机器人操作任务中取得了更高的成功率。
- 视频质量: VideoAgent 生成的视频质量更高,更符合现实物理机制。
- 真实机器人视频: VideoAgent 能够提升真实机器人视频的质量。
VideoAgent 的研究成果为文本生视频模型的应用开辟了新的方向,也为通用智能体的实现提供了新的思路。 未来,VideoAgent 的研究将继续探索如何将视频生成模型与真实世界环境进行更紧密的结合,以实现更强大的智能体。
总结:
- VideoAgent 是一种能够自我优化的视频智能体,利用 AI 反馈和真实世界执行反馈,迭代式地优化生成的视频规划。
- VideoAgent 的研究成果为文本生视频模型的应用开辟了新的方向,也为通用智能体的实现提供了新的思路。
- 未来,VideoAgent 的研究将继续探索如何将视频生成模型与真实世界环境进行更紧密的结合,以实现更强大的智能体。
参考文献:
- Soni, A., Venkataraman, S., Chandra, A., Fischmeister, S., Liang, P., Dai, B., & Yang, S. (2024). VideoAgent: Self-Improving Video Generation. arXiv preprint arXiv:2410.10076.
Views: 0