视频生成模型进化：智能体VideoAgent横空出世！

视频生成模型变身智能体：斯坦福 Percy Liang 等提出 VideoAgent，竟能自我优化

近年来，「文本生视频」赛道蓬勃发展，其应用场景涵盖创意视频内容生成、游戏场景构建、动画和电影制作等领域。 甚至有研究表明，视频生成模型还能用作真实世界的模拟器，例如 OpenAI 今年初发布的 Sora 技术，将视频生成模型作为数据驱动物理引擎。

文本生视频模型的这些应用，不仅有望实现互联网规模级别的知识迁移，还可能为通用智能体的实现铺平道路。 然而，现阶段文本生视频模型的下游应用仍然有限，主要原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。

为了解决这些问题，一个多所机构的研究团队提出了 VideoAgent，一种能够自我优化的视频智能体。 VideoAgent 利用来自视觉 – 语言模型 (VLM)的 AI 反馈和真实世界执行反馈，迭代式地优化生成的视频规划。

该研究由斯坦福大学 Percy Liang 教授团队主导，论文发表在 arXiv 上，并已开源代码。 论文地址：https://arxiv.org/pdf/2410.10076 代码地址：https://github.com/Video-as-Agent/VideoAgent

VideoAgent 的核心思路是将视频生成模型与视频优化模型结合，并通过两种反馈机制实现自我提升：

VideoAgent 的工作流程如下：

实验结果表明，VideoAgent 在多个数据集上取得了显著的提升，包括：

VideoAgent 的研究成果为文本生视频模型的应用开辟了新的方向，也为通用智能体的实现提供了新的思路。 未来，VideoAgent 的研究将继续探索如何将视频生成模型与真实世界环境进行更紧密的结合，以实现更强大的智能体。

总结:

参考文献:

Soni, A., Venkataraman, S., Chandra, A., Fischmeister, S., Liang, P., Dai, B., & Yang, S. (2024). VideoAgent: Self-Improving Video Generation. arXiv preprint arXiv:2410.10076.