Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news studionews studio
0

导语:视频理解一直是计算机视觉和人工智能领域的重大挑战。近日,北京通用人工智能研究院与北京大学的研究人员联合提出了一种基于记忆和工具使用的视频理解智能体VideoAgent,其在视频理解任务上取得了显著成果,比基准模型高30%,媲美Gemini 1.5 Pro。本文将为您详细介绍这一创新成果。

正文:

一、背景

视频理解是计算机视觉和人工智能领域的一个重要研究方向,旨在让机器能够像人类一样理解视频内容。然而,视频理解仍然面临着诸多挑战,如内存消耗大、长程关系难以捕捉等。

二、VideoAgent介绍

为解决这些问题,北京通用人工智能研究院与北京大学的研究人员提出了VideoAgent,这是一种基于记忆和工具使用的视频理解智能体。VideoAgent的主要思想是将视频表示为结构化的记忆,并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息,实现对视频的理解以及对视频问题的回答。

三、VideoAgent的工作原理

  1. 记忆构建

VideoAgent的记忆构建遵循简约原则,包括时间记忆和物体记忆。时间记忆用于存储每2秒视频片段所发生的事件,物体记忆用于存储视频中出现的人和物体的信息。

  1. 推理阶段

在推理阶段,VideoAgent会调用一系列工具,从记忆中抽取与问题有关的信息来回答该问题。这些工具主要包括片段描述召回、片段定位、视觉问答和物体记忆查询等。

  1. 实验结果

在EgoSchema、WorldQA和NExT-QA三个长视频理解数据集上,VideoAgent取得了显著成果,比基准模型高30%,媲美Gemini 1.5 Pro。

四、总结

VideoAgent作为一种基于记忆的视频理解智能体,在视频理解任务上取得了突破性成果。其新颖的记忆机制和工具使用能力为视频理解领域提供了新的思路。未来,VideoAgent有望在更多应用场景中发挥重要作用。

详情请查看以下链接:

  • 论文链接:https://arxiv.org/abs/2403.11481
  • 项目主页:https://videoagent.github.io/
  • 代码链接:https://github.com/YueFan1014/VideoAgent

如果您有优秀的工作想要分享,欢迎投稿或联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

(完)


read more

Views: 4

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注