Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

视频生成模型变身智能体:斯坦福 Percy Liang 等提出 VideoAgent,竟能自我优化

近年来,「文本生视频」赛道蓬勃发展,其应用场景涵盖创意视频内容生成、游戏场景构建、动画和电影制作等领域。 甚至有研究表明,视频生成模型还能用作真实世界的模拟器,例如 OpenAI 今年初发布的 Sora 技术,将视频生成模型作为数据驱动物理引擎。

文本生视频模型的这些应用,不仅有望实现互联网规模级别的知识迁移,还可能为通用智能体的实现铺平道路。 然而,现阶段文本生视频模型的下游应用仍然有限,主要原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。

为了解决这些问题,一个多所机构的研究团队提出了 VideoAgent,一种能够自我优化的视频智能体。 VideoAgent 利用来自视觉 – 语言模型 (VLM)的 AI 反馈和真实世界执行反馈,迭代式地优化生成的视频规划。

该研究由斯坦福大学 Percy Liang 教授团队主导,论文发表在 arXiv 上,并已开源代码。 论文地址:https://arxiv.org/pdf/2410.10076 代码地址:https://github.com/Video-as-Agent/VideoAgent

VideoAgent 的核心思路是将视频生成模型与视频优化模型结合,并通过两种反馈机制实现自我提升:

  1. 自我调节一致性 (self-conditioning consistency):利用视频扩散模型的低质量样本,通过一致性模型将其优化成高质量样本。
  2. 在线微调: 在执行视频策略的过程中,收集环境反馈和成功轨迹,进一步微调视频生成模型。

VideoAgent 的工作流程如下:

  1. 生成视频规划: 根据语言描述和初始图像,生成一个视频规划。
  2. 视频优化: 使用视频优化模型和 VLM 反馈,迭代式地优化视频规划。
  3. 执行视频规划: 将视频规划转换成运动控制指令,在真实环境中执行。
  4. 收集反馈: 收集环境反馈和成功轨迹,用于进一步微调视频生成模型。

实验结果表明,VideoAgent 在多个数据集上取得了显著的提升,包括:

  • 端到端成功率: VideoAgent 在机器人操作任务中取得了更高的成功率。
  • 视频质量: VideoAgent 生成的视频质量更高,更符合现实物理机制。
  • 真实机器人视频: VideoAgent 能够提升真实机器人视频的质量。

VideoAgent 的研究成果为文本生视频模型的应用开辟了新的方向,也为通用智能体的实现提供了新的思路。 未来,VideoAgent 的研究将继续探索如何将视频生成模型与真实世界环境进行更紧密的结合,以实现更强大的智能体。

总结:

  • VideoAgent 是一种能够自我优化的视频智能体,利用 AI 反馈和真实世界执行反馈,迭代式地优化生成的视频规划。
  • VideoAgent 的研究成果为文本生视频模型的应用开辟了新的方向,也为通用智能体的实现提供了新的思路。
  • 未来,VideoAgent 的研究将继续探索如何将视频生成模型与真实世界环境进行更紧密的结合,以实现更强大的智能体。

参考文献:

  • Soni, A., Venkataraman, S., Chandra, A., Fischmeister, S., Liang, P., Dai, B., & Yang, S. (2024). VideoAgent: Self-Improving Video Generation. arXiv preprint arXiv:2410.10076.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注