清华突破！新范式解决大规模视频片段标注难题

NeurIPS 2024：清华提出大规模细粒度视频片段标注新范式VERIFIED，推动细粒度视频理解发展

视频内容的爆炸式增长给视频检索技术，特别是细粒度视频片段检索（VCMR），带来了巨大的挑战。 VCMR要求系统根据文本查询从视频库中精准定位视频中的匹配片段，需要具备跨模态理解和细粒度视频理解能力。然而，现有研究多局限于粗粒度理解，难以应对细粒度查询。为此，来自清华大学的研究者提出自动化视频 – 文本细粒度标注系统 VERIFIED，并基于此系统构建新的细粒度VCMR 基准数据集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG），以推动细粒度视频理解的发展。

一、细粒度视频理解的挑战

传统的 VCMR基准数据集通常使用粗粒度标注，视频与文本之间存在多对多问题，无法支持细粒度视频检索的训练与评估。例如，一个关于“骑自行车”的查询可能对应视频中多个片段，但这些片段的具体细节可能不同，例如骑车者的穿着、骑车的地点等。这种多对多问题导致模型难以学习到细粒度的视频理解能力。

二、VERIFIED：自动化细粒度视频标注系统

为了解决上述问题，清华大学的研究者提出了 VERIFIED 系统，它能够自动生成高质量的细粒度视频标注。VERIFIED 系统主要包含三个模块：

静态信息增强模块： 该模块提取视频关键帧，分析前景和背景属性，生成多个静态细粒度描述，丰富视频的静态视觉信息。
动态信息增强模块： 该模块根据视频的粗粒度标注，使用视频问答系统（VQA）获取动态细节，生成多个动态细粒度标注，帮助模型更好地理解视频中的动作和变化。
细粒度感知的噪声评估模块： 该模块通过生成并选择被扰动的正负样本，使用对比损失和匹配损失来微调模型，以识别不准确的描述。

三、新的细粒度 VCMR 基准数据集

基于 VERIFIED 系统，研究者构建了三个新的细粒度 VCMR 基准数据集：Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG。这些数据集包含了更精细的文本查询和视频片段标注，能够更好地评估模型的细粒度视频理解能力。

四、VERIFIED 的意义

VERIFIED 系统的提出为细粒度视频理解研究提供了新的方法和工具。它能够有效地解决现有 VCMR 基准数据集的局限性，为模型训练和评估提供更准确、更细粒度的标注数据。这将推动细粒度视频理解领域的发展，并为视频检索、视频内容分析等应用带来新的突破。

五、未来展望

VERIFIED 系统的出现标志着细粒度视频理解研究进入了一个新的阶段。未来，研究者可以进一步探索以下方向：

提高 VERIFIED 系统的效率和准确性： 探索更先进的模型和算法，提升 VERIFIED 系统的标注效率和准确性。
扩展 VERIFIED 系统的功能：将 VERIFIED 系统应用于其他类型的视频数据，例如多语言视频、长视频等。
开发新的细粒度视频理解模型： 基于 VERIFIED 系统构建的细粒度 VCMR 基准数据集，开发新的细粒度视频理解模型，提升模型的性能。

参考文献

VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)
https://arxiv.org/pdf/2410.08593
https://verified-neurips.github.io/

作者简介

陈厚伦，清华大学计算机系媒体所的二年级博士生，主要研究方向是多模态大模型与视频理解，在 NeurIPS、ACM Multimedia 等顶级会议发表多篇论文，曾获国家奖学金、北京市优秀本科毕业生等。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

清华突破！新范式解决大规模视频片段标注难题

作者智能小编

NeurIPS 2024：清华提出大规模细粒度视频片段标注新范式VERIFIED，推动细粒度视频理解发展

相关文章

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

发表回复取消回复

为您推荐

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

国产Vidu Q1爆红！AI视频技术登顶VBench

作者智能小编

NeurIPS 2024：清华提出大规模细粒度视频片段标注新范式VERIFIED，推动细粒度视频理解发展

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复