上海—— 上海人工智能实验室(Shanghai AI Lab)联合南京大学、中科院深圳先进技术研究院近日开源了新一代视频多模态大模型InternVideo2.5,在视频理解领域取得了重大突破。该模型尤其擅长处理长视频和进行细粒度时空感知,为视频内容理解、检索、编辑以及自动驾驶等领域带来了新的可能性。
长视频处理能力大幅提升
InternVideo2.5最引人注目的特点是其强大的长视频处理能力。相较于前代模型,InternVideo2.5能够处理长达万帧的视频,处理长度提升了6倍。这意味着模型能够在更长的时间跨度内理解视频内容,并精准定位目标帧,实现“大海捞针”式的检索。
这种能力得益于InternVideo2.5采用的“长时丰富上下文建模(LRC)”技术。LRC通过扩展模型的上下文长度和细节感知能力,使模型能够处理更长的视频序列。其核心技术包括:
- 视频长度自适应令牌表示: 根据视频的长度和内容特征动态调整帧采样策略,确保在不同时间尺度上有效捕捉运动信息。例如,短视频采用密集采样,而长视频则采用稀疏采样。
- 分层上下文压缩(HiCo): 通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。HiCo通过基于语义相似性的令牌合并,在保留细节的同时显著减少了冗余信息。
细粒度时空感知与多模态融合
除了长视频处理能力,InternVideo2.5还具备出色的细粒度时空感知能力。模型能够准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。这使得模型能够支持通用视频问答,并完成目标跟踪、分割等专业视觉任务。
此外,InternVideo2.5将视觉感知和语言理解深度融合,能够根据视频内容生成详细的描述和回答用户的问题。这种多模态融合能力使得模型能够更好地理解视频内容,并将其转化为人类可理解的语言。
任务偏好优化(TPO)与高效预训练
为了支持多种专业视觉任务,InternVideo2.5采用了任务偏好优化(TPO)技术。TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。具体实现方式包括:
- 任务特定组件集成: 在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
- 视觉概念预训练: 使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
为了提升模型性能并降低训练成本,InternVideo2.5采用了渐进式多阶段训练方案,使用超过30万小时的视频语料进行预训练。
广泛的应用前景
InternVideo2.5的开源,为视频内容理解和应用带来了广阔的前景。该模型可以应用于:
- 视频内容理解和检索: 根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
- 视频编辑和创作: 为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。
- 监控安防: 实时分析监控视频,快速定位异常事件并发出警报。
- 自动驾驶: 实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
开源信息
InternVideo2.5的项目地址如下:
- Github仓库: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- HuggingFace模型库: https://huggingface.co/OpenGVLab/InternVideo2_5
- arXiv技术论文: https://arxiv.org/pdf/2501.12386
上海AI Lab此次开源InternVideo2.5,无疑将推动视频理解技术的进一步发展,并为各行各业带来创新应用。
参考文献
- OpenGVLab. (2024). InternVideo2.5. GitHub. Retrieved from https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- OpenGVLab. (2024). InternVideo25. Hugging Face. Retrieved from https://huggingface.co/OpenGVLab/InternVideo25
- OpenGVLab. (2024). InternVideo2.5: Scaling Video Understanding to Long-Form Videos. arXiv. Retrieved from https://arxiv.org/pdf/2501.12386
Views: 0