上海人工智能实验室(Shanghai AI Lab)联合南京大学、中科院深圳先进技术研究院近日开源了InternVideo2.5,一款强大的视频多模态大模型。该模型在视频理解领域取得了显著突破,尤其是在长视频处理和细粒度时空感知方面,为视频内容理解和应用带来了新的可能性。
长视频处理能力跃升6倍,精准定位“大海捞针”
InternVideo2.5最引人注目的特点之一是其强大的长视频处理能力。相较于前代产品,InternVideo2.5能够处理长达万帧的视频,处理长度提升了6倍。这意味着该模型能够有效分析更长时间的视频内容,并在其中精准定位目标帧,实现“大海捞针”式的检索。
这一突破得益于InternVideo2.5采用的长时丰富上下文建模(LRC)技术。LRC通过扩展模型的上下文长度和细节感知能力,使模型能够有效处理长视频。其核心包含:
- 视频长度自适应令牌表示: 根据视频的长度和内容特征动态调整帧采样策略。短序列采用密集采样,长序列则采用稀疏采样,确保在不同时间尺度上有效捕捉运动信息。
- 分层上下文压缩(HiCo): 通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。HiCo通过时空令牌合并和多模态上下文整合,在保留细节的同时,显著减少了冗余信息。
细粒度时空感知,赋能专业视觉任务
除了长视频处理能力,InternVideo2.5在细粒度时空感知方面也表现出色。该模型能够准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。这使得InternVideo2.5能够支持通用视频问答,并完成目标跟踪、分割等专业视觉任务。
为了实现这一目标,InternVideo2.5采用了任务偏好优化(TPO)技术。TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。具体实现方式包括:
- 任务特定组件集成: 在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
- 视觉概念预训练: 使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
多模态融合与高效训练,打造卓越性能
InternVideo2.5不仅在视觉感知方面表现出色,还实现了视觉感知和语言理解的深度融合。该模型能够根据视频内容生成详细的描述,并回答用户提出的问题。
为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统。该系统结合了序列和张量分布式处理,以及动态数据打包技术,显著提高了训练效率。同时,InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能:
- 基础学习阶段: 进行任务识别指令调整和视频语言对齐训练。
- 细粒度感知训练阶段: 通过集成任务特定组件和视觉概念预训练,增强视觉理解能力。
- 综合优化阶段: 在混合语料库上进行多任务训练和指令调整,优化所有模型组件。
应用场景广泛,未来可期
InternVideo2.5的强大性能使其在多个领域具有广泛的应用前景:
- 视频内容理解和检索: 能够根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
- 视频编辑和创作: 为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。
- 监控安防: 实时分析监控视频,快速定位异常事件并发出警报。
- 自动驾驶: 实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
InternVideo2.5的开源无疑将加速视频理解技术的发展,并推动其在更多领域的应用。随着技术的不断进步,我们有理由期待InternVideo2.5在未来能够为我们带来更多惊喜。
项目地址
- Github仓库: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- HuggingFace模型库: https://huggingface.co/OpenGVLab/InternVideo2_5
- arXiv技术论文: https://arxiv.org/pdf/2501.12386
Views: 0