上海AI Lab开源InternVideo2.5，视频多模态新突破

上海人工智能实验室（Shanghai AI Lab）联合南京大学、中科院深圳先进技术研究院近日开源了InternVideo2.5，一款强大的视频多模态大模型。该模型在视频理解领域取得了显著突破，尤其是在长视频处理和细粒度时空感知方面，为视频内容理解和应用带来了新的可能性。

长视频处理能力跃升6倍，精准定位“大海捞针”

InternVideo2.5最引人注目的特点之一是其强大的长视频处理能力。相较于前代产品，InternVideo2.5能够处理长达万帧的视频，处理长度提升了6倍。这意味着该模型能够有效分析更长时间的视频内容，并在其中精准定位目标帧，实现“大海捞针”式的检索。

这一突破得益于InternVideo2.5采用的长时丰富上下文建模（LRC）技术。LRC通过扩展模型的上下文长度和细节感知能力，使模型能够有效处理长视频。其核心包含：

视频长度自适应令牌表示： 根据视频的长度和内容特征动态调整帧采样策略。短序列采用密集采样，长序列则采用稀疏采样，确保在不同时间尺度上有效捕捉运动信息。
分层上下文压缩（HiCo）： 通过分层压缩机制，减少视频信号中的时空冗余，同时保留关键信息。HiCo通过时空令牌合并和多模态上下文整合，在保留细节的同时，显著减少了冗余信息。

细粒度时空感知，赋能专业视觉任务

除了长视频处理能力，InternVideo2.5在细粒度时空感知方面也表现出色。该模型能够准确识别和定位视频中的物体、场景和动作，理解细微的时空关系。这使得InternVideo2.5能够支持通用视频问答，并完成目标跟踪、分割等专业视觉任务。

为了实现这一目标，InternVideo2.5采用了任务偏好优化（TPO）技术。TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好，指导模型学习。具体实现方式包括：

任务特定组件集成： 在模型中加入任务特定的组件（如时间头、掩码适配器等），并通过任务特定数据集进行训练。
视觉概念预训练： 使用大量图像和视频文本对进行预训练，进一步提升模型的视觉理解能力。

多模态融合与高效训练，打造卓越性能

InternVideo2.5不仅在视觉感知方面表现出色，还实现了视觉感知和语言理解的深度融合。该模型能够根据视频内容生成详细的描述，并回答用户提出的问题。

为了支持大规模视频数据的训练和测试，InternVideo2.5开发了基于多模态序列并行的分布式系统。该系统结合了序列和张量分布式处理，以及动态数据打包技术，显著提高了训练效率。同时，InternVideo2.5采用渐进式多阶段训练方案，逐步提升模型的性能：

基础学习阶段： 进行任务识别指令调整和视频语言对齐训练。
细粒度感知训练阶段： 通过集成任务特定组件和视觉概念预训练，增强视觉理解能力。
综合优化阶段： 在混合语料库上进行多任务训练和指令调整，优化所有模型组件。

应用场景广泛，未来可期

InternVideo2.5的强大性能使其在多个领域具有广泛的应用前景：

视频内容理解和检索： 能够根据用户的文本查询快速找到相关的视频内容，支持复杂的视频检索任务。
视频编辑和创作： 为视频编辑提供智能支持，例如自动生成视频的精彩片段、生成视频的字幕或解说词。
监控安防： 实时分析监控视频，快速定位异常事件并发出警报。
自动驾驶： 实时处理自动驾驶车辆的摄像头数据，准确识别道路标志、交通信号和障碍物。

InternVideo2.5的开源无疑将加速视频理解技术的发展，并推动其在更多领域的应用。随着技术的不断进步，我们有理由期待InternVideo2.5在未来能够为我们带来更多惊喜。

项目地址

Github仓库： https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
HuggingFace模型库： https://huggingface.co/OpenGVLab/InternVideo2_5
arXiv技术论文： https://arxiv.org/pdf/2501.12386

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

上海AI Lab开源InternVideo2.5，视频多模态新突破

作者智能小编

长视频处理能力跃升6倍，精准定位“大海捞针”

细粒度时空感知，赋能专业视觉任务

多模态融合与高效训练，打造卓越性能

应用场景广泛，未来可期

项目地址

相关文章

纳瓦尔揭露：人性的44个残酷真相

Discord如何索引千亿消息：技术揭秘

MongoDB联手Voyage AI，革新信息检索

发表回复取消回复

为您推荐

纳瓦尔揭露：人性的44个残酷真相

Discord如何索引千亿消息：技术揭秘

MongoDB联手Voyage AI，革新信息检索

AI模型数学能力突飞猛进！清华&上海AI Lab强化学习显神威

作者智能小编

长视频处理能力跃升6倍，精准定位“大海捞针”

细粒度时空感知，赋能专业视觉任务

多模态融合与高效训练，打造卓越性能

应用场景广泛，未来可期

项目地址

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复