ECCV 2024：媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了！

9 月 6, 2024 #新闻, #机器之心

news studio

导语：视频理解一直是计算机视觉和人工智能领域的重大挑战。近日，北京通用人工智能研究院与北京大学的研究人员联合提出了一种基于记忆和工具使用的视频理解智能体VideoAgent，其在视频理解任务上取得了显著成果，比基准模型高30%，媲美Gemini 1.5 Pro。本文将为您详细介绍这一创新成果。

正文：

一、背景

视频理解是计算机视觉和人工智能领域的一个重要研究方向，旨在让机器能够像人类一样理解视频内容。然而，视频理解仍然面临着诸多挑战，如内存消耗大、长程关系难以捕捉等。

二、VideoAgent介绍

为解决这些问题，北京通用人工智能研究院与北京大学的研究人员提出了VideoAgent，这是一种基于记忆和工具使用的视频理解智能体。VideoAgent的主要思想是将视频表示为结构化的记忆，并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息，实现对视频的理解以及对视频问题的回答。

三、VideoAgent的工作原理

VideoAgent的记忆构建遵循简约原则，包括时间记忆和物体记忆。时间记忆用于存储每2秒视频片段所发生的事件，物体记忆用于存储视频中出现的人和物体的信息。

在推理阶段，VideoAgent会调用一系列工具，从记忆中抽取与问题有关的信息来回答该问题。这些工具主要包括片段描述召回、片段定位、视觉问答和物体记忆查询等。

在EgoSchema、WorldQA和NExT-QA三个长视频理解数据集上，VideoAgent取得了显著成果，比基准模型高30%，媲美Gemini 1.5 Pro。

四、总结

VideoAgent作为一种基于记忆的视频理解智能体，在视频理解任务上取得了突破性成果。其新颖的记忆机制和工具使用能力为视频理解领域提供了新的思路。未来，VideoAgent有望在更多应用场景中发挥重要作用。

详情请查看以下链接：

如果您有优秀的工作想要分享，欢迎投稿或联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

（完）