上海AI Lab开源InternVideo2.5多模态视频大模型

上海—— 上海人工智能实验室（Shanghai AI Lab）联合南京大学、中科院深圳先进技术研究院近日开源了新一代视频多模态大模型InternVideo2.5，在视频理解领域取得了重大突破。该模型尤其擅长处理长视频和进行细粒度时空感知，为视频内容理解、检索、编辑以及自动驾驶等领域带来了新的可能性。

长视频处理能力大幅提升

InternVideo2.5最引人注目的特点是其强大的长视频处理能力。相较于前代模型，InternVideo2.5能够处理长达万帧的视频，处理长度提升了6倍。这意味着模型能够在更长的时间跨度内理解视频内容，并精准定位目标帧，实现“大海捞针”式的检索。

这种能力得益于InternVideo2.5采用的“长时丰富上下文建模（LRC）”技术。LRC通过扩展模型的上下文长度和细节感知能力，使模型能够处理更长的视频序列。其核心技术包括：

视频长度自适应令牌表示： 根据视频的长度和内容特征动态调整帧采样策略，确保在不同时间尺度上有效捕捉运动信息。例如，短视频采用密集采样，而长视频则采用稀疏采样。
分层上下文压缩（HiCo）： 通过分层压缩机制，减少视频信号中的时空冗余，同时保留关键信息。HiCo通过基于语义相似性的令牌合并，在保留细节的同时显著减少了冗余信息。

细粒度时空感知与多模态融合

除了长视频处理能力，InternVideo2.5还具备出色的细粒度时空感知能力。模型能够准确识别和定位视频中的物体、场景和动作，理解细微的时空关系。这使得模型能够支持通用视频问答，并完成目标跟踪、分割等专业视觉任务。

此外，InternVideo2.5将视觉感知和语言理解深度融合，能够根据视频内容生成详细的描述和回答用户的问题。这种多模态融合能力使得模型能够更好地理解视频内容，并将其转化为人类可理解的语言。

任务偏好优化（TPO）与高效预训练

为了支持多种专业视觉任务，InternVideo2.5采用了任务偏好优化（TPO）技术。TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好，指导模型学习。具体实现方式包括：

任务特定组件集成： 在模型中加入任务特定的组件（如时间头、掩码适配器等），并通过任务特定数据集进行训练。
视觉概念预训练： 使用大量图像和视频文本对进行预训练，进一步提升模型的视觉理解能力。

为了提升模型性能并降低训练成本，InternVideo2.5采用了渐进式多阶段训练方案，使用超过30万小时的视频语料进行预训练。

广泛的应用前景

InternVideo2.5的开源，为视频内容理解和应用带来了广阔的前景。该模型可以应用于：

视频内容理解和检索： 根据用户的文本查询快速找到相关的视频内容，支持复杂的视频检索任务。
视频编辑和创作： 为视频编辑提供智能支持，例如自动生成视频的精彩片段、生成视频的字幕或解说词。
监控安防： 实时分析监控视频，快速定位异常事件并发出警报。
自动驾驶： 实时处理自动驾驶车辆的摄像头数据，准确识别道路标志、交通信号和障碍物。

开源信息

InternVideo2.5的项目地址如下：

Github仓库： https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
HuggingFace模型库： https://huggingface.co/OpenGVLab/InternVideo2_5
arXiv技术论文： https://arxiv.org/pdf/2501.12386

上海AI Lab此次开源InternVideo2.5，无疑将推动视频理解技术的进一步发展，并为各行各业带来创新应用。

参考文献

OpenGVLab. (2024). InternVideo2.5. GitHub. Retrieved from https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
OpenGVLab. (2024). InternVideo25. Hugging Face. Retrieved from https://huggingface.co/OpenGVLab/InternVideo25
OpenGVLab. (2024). InternVideo2.5: Scaling Video Understanding to Long-Form Videos. arXiv. Retrieved from https://arxiv.org/pdf/2501.12386

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

上海AI Lab开源InternVideo2.5多模态视频大模型

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐