Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824
0

NeurIPS 2024:清华提出大规模细粒度视频片段标注新范式VERIFIED,推动细粒度视频理解发展

视频内容的爆炸式增长给视频检索技术,特别是细粒度视频片段检索(VCMR),带来了巨大的挑战。 VCMR要求系统根据文本查询从视频库中精准定位视频中的匹配片段,需要具备跨模态理解和细粒度视频理解能力。然而,现有研究多局限于粗粒度理解,难以应对细粒度查询。为此,来自清华大学的研究者提出自动化视频 – 文本细粒度标注系统 VERIFIED,并基于此系统构建新的细粒度VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。

一、细粒度视频理解的挑战

传统的 VCMR基准数据集通常使用粗粒度标注,视频与文本之间存在多对多问题,无法支持细粒度视频检索的训练与评估。例如,一个关于“骑自行车”的查询可能对应视频中多个片段,但这些片段的具体细节可能不同,例如骑车者的穿着、骑车的地点等。这种多对多问题导致模型难以学习到细粒度的视频理解能力。

二、VERIFIED:自动化细粒度视频标注系统

为了解决上述问题,清华大学的研究者提出了 VERIFIED 系统,它能够自动生成高质量的细粒度视频标注。VERIFIED 系统主要包含三个模块:

  • 静态信息增强模块: 该模块提取视频关键帧,分析前景和背景属性,生成多个静态细粒度描述,丰富视频的静态视觉信息。
  • 动态信息增强模块: 该模块根据视频的粗粒度标注,使用视频问答系统(VQA)获取动态细节,生成多个动态细粒度标注,帮助模型更好地理解视频中的动作和变化。
  • 细粒度感知的噪声评估模块: 该模块通过生成并选择被扰动的正负样本,使用对比损失和匹配损失来微调模型,以识别不准确的描述。

三、新的细粒度 VCMR 基准数据集

基于 VERIFIED 系统,研究者构建了三个新的细粒度 VCMR 基准数据集:Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG。这些数据集包含了更精细的文本查询和视频片段标注,能够更好地评估模型的细粒度视频理解能力。

四、VERIFIED 的意义

VERIFIED 系统的提出为细粒度视频理解研究提供了新的方法和工具。它能够有效地解决现有 VCMR 基准数据集的局限性,为模型训练和评估提供更准确、更细粒度的标注数据。这将推动细粒度视频理解领域的发展,并为视频检索、视频内容分析等应用带来新的突破。

五、未来展望

VERIFIED 系统的出现标志着细粒度视频理解研究进入了一个新的阶段。未来,研究者可以进一步探索以下方向:

  • 提高 VERIFIED 系统的效率和准确性: 探索更先进的模型和算法,提升 VERIFIED 系统的标注效率和准确性。
  • 扩展 VERIFIED 系统的功能:将 VERIFIED 系统应用于其他类型的视频数据,例如多语言视频、长视频等。
  • 开发新的细粒度视频理解模型: 基于 VERIFIED 系统构建的细粒度 VCMR 基准数据集,开发新的细粒度视频理解模型,提升模型的性能。

参考文献

  • VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)
  • https://arxiv.org/pdf/2410.08593
  • https://verified-neurips.github.io/

作者简介

陈厚伦,清华大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解,在 NeurIPS、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注