上海AI Lab开源InternVideo2.5，视频多模态新突破

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）近日联合南京大学、中科院深圳先进技术研究院，正式开源其最新一代视频多模态大模型——InternVideo2.5。这一举措标志着国产AI技术在视频理解领域取得了又一重要进展，尤其是在长视频处理和细粒度时空感知方面实现了显著突破。

InternVideo2.5最引人注目的特点在于其强大的长视频处理能力。相较于前代产品，新模型能够处理长达万帧的视频，处理长度提升了6倍。这意味着它能够胜任“大海捞针”式的检索任务，在冗长的视频内容中精准定位目标帧，极大地提升了视频分析的效率。

技术亮点：从长时上下文建模到任务偏好优化

InternVideo2.5的技术核心在于以下几个方面：

长时丰富上下文建模 (LRC)： 通过扩展模型的上下文长度和细节感知能力，LRC使InternVideo2.5能够处理更长的视频序列。其关键在于视频长度自适应令牌表示，模型会根据视频长度和内容特征动态调整帧采样策略，确保在不同时间尺度上有效捕捉运动信息。例如，短视频采用密集采样，而长视频则采用稀疏采样。此外，分层上下文压缩 (HiCo) 通过分层压缩机制减少视频信号中的时空冗余，同时保留关键信息，包括时空令牌合并和多模态上下文整合。
任务偏好优化 (TPO)： TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好，指导模型学习，从而使InternVideo2.5能够处理多种专业视觉任务，如目标跟踪、分割、时间定位等。这通过集成任务特定组件（如时间头、掩码适配器等）并通过任务特定数据集进行训练来实现。同时，视觉概念预训练使用大量图像和视频文本对进行预训练，进一步提升模型的视觉理解能力。
渐进式多阶段训练方案： InternVideo2.5采用渐进式多阶段训练方案，逐步提升模型的性能。该方案包括基础学习阶段、细粒度感知训练阶段和综合优化阶段。
高效分布式系统： 为了支持大规模视频数据的训练和测试，InternVideo2.5开发了基于多模态序列并行的分布式系统，结合了序列和张量分布式处理以及动态数据打包技术，显著提高了训练效率。

应用前景广阔：从视频检索到自动驾驶

InternVideo2.5的强大功能使其在多个领域拥有广阔的应用前景：

视频内容理解和检索： 模型能够根据用户的文本查询快速找到相关的视频内容，支持复杂的视频检索任务。
视频编辑和创作： InternVideo2.5能为视频编辑提供智能支持，例如自动生成视频的精彩片段、生成视频的字幕或解说词，并根据用户的指令对视频进行剪辑和调整，提高视频创作的效率。
监控安防： 在监控安防领域，InternVideo2.5能实时分析监控视频，快速定位异常事件并发出警报。
自动驾驶： InternVideo2.5能实时处理自动驾驶车辆的摄像头数据，准确识别道路标志、交通信号和障碍物。

开源信息：

Github仓库： https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
HuggingFace模型库： https://huggingface.co/OpenGVLab/InternVideo2_5
arXiv技术论文： https://arxiv.org/pdf/2501.12386

上海人工智能实验室此次开源InternVideo2.5，不仅展现了其在人工智能领域的研发实力，也为学术界和工业界提供了强大的工具，有望加速视频理解技术的创新和应用。

参考文献:

OpenGVLab. (2024). InternVideo2.5. Retrieved from https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
OpenGVLab. (2024). InternVideo25. Retrieved from https://huggingface.co/OpenGVLab/InternVideo25
OpenGVLab. (2024). InternVideo2.5 Technical Paper. Retrieved from https://arxiv.org/pdf/2501.12386

[记者姓名]

[记者职称]

[联系方式]

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

上海AI Lab开源InternVideo2.5，视频多模态新突破

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐