《突破极限！ECCV 2024发布视频理解新突破，超越基准30%，力压Gemini 1.5 Pro》

9 月 6, 2024 #新华社, #新闻, #机器之心

【新华社】北京通用人工智能研究院与北京大学联合发布基于记忆的视频理解智能体VideoAgent，突破视频理解难题

近日，北京通用人工智能研究院联合北京大学的研究团队成功研发出一种名为VideoAgent的视频理解智能体，该智能体在视频理解任务上达到了与目前最先进的Gemini 1.5 Pro相当的水平，并且比基准模型提升了30%。

视频理解一直是计算机视觉和人工智能领域的一个重大挑战。随着端到端多模态大语言模型的发展，许多研究在视频理解上取得了显著进展。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，且自注意力机制有时难以捕捉长程关系，这些问题限制了端到端模型在视频理解领域的进一步应用。

为解决这一问题，北京通用人工智能研究院与北京大学的研究人员共同提出了VideoAgent，该智能体基于记忆和工具使用，能够有效地处理长视频，并在视频理解任务上取得了优异的成绩。

VideoAgent的主要思想是将视频表示为结构化的记忆，并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息，实现对视频的理解以及对视频问题的回答。

该论文已被国际顶级计算机视觉会议ECCV 2024接收，相关研究成果已发布在AI领域知名学术平台ArXiv上，项目主页及代码链接也均已公布。

实验结果表明，VideoAgent在多个长视频理解数据集上取得了显著优于现有开源多模态大语言模型的表现，并在部分数据集上达到了目前最好的闭源模型水平。

这一成果不仅为视频理解领域提供了新的思路和方法，也为人工智能技术在视频内容分析、智能监控、虚拟现实等领域的发展提供了新的可能性。

（完）