上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)近日联合南京大学、中科院深圳先进技术研究院,正式开源其最新一代视频多模态大模型——InternVideo2.5。这一举措标志着国产AI技术在视频理解领域取得了又一重要进展,尤其是在长视频处理和细粒度时空感知方面实现了显著突破。
InternVideo2.5最引人注目的特点在于其强大的长视频处理能力。相较于前代产品,新模型能够处理长达万帧的视频,处理长度提升了6倍。这意味着它能够胜任“大海捞针”式的检索任务,在冗长的视频内容中精准定位目标帧,极大地提升了视频分析的效率。
技术亮点:从长时上下文建模到任务偏好优化
InternVideo2.5的技术核心在于以下几个方面:
- 长时丰富上下文建模 (LRC): 通过扩展模型的上下文长度和细节感知能力,LRC使InternVideo2.5能够处理更长的视频序列。其关键在于视频长度自适应令牌表示,模型会根据视频长度和内容特征动态调整帧采样策略,确保在不同时间尺度上有效捕捉运动信息。例如,短视频采用密集采样,而长视频则采用稀疏采样。此外,分层上下文压缩 (HiCo) 通过分层压缩机制减少视频信号中的时空冗余,同时保留关键信息,包括时空令牌合并和多模态上下文整合。
- 任务偏好优化 (TPO): TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习,从而使InternVideo2.5能够处理多种专业视觉任务,如目标跟踪、分割、时间定位等。这通过集成任务特定组件(如时间头、掩码适配器等)并通过任务特定数据集进行训练来实现。同时,视觉概念预训练使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
- 渐进式多阶段训练方案: InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能。该方案包括基础学习阶段、细粒度感知训练阶段和综合优化阶段。
- 高效分布式系统: 为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统,结合了序列和张量分布式处理以及动态数据打包技术,显著提高了训练效率。
应用前景广阔:从视频检索到自动驾驶
InternVideo2.5的强大功能使其在多个领域拥有广阔的应用前景:
- 视频内容理解和检索: 模型能够根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
- 视频编辑和创作: InternVideo2.5能为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词,并根据用户的指令对视频进行剪辑和调整,提高视频创作的效率。
- 监控安防: 在监控安防领域,InternVideo2.5能实时分析监控视频,快速定位异常事件并发出警报。
- 自动驾驶: InternVideo2.5能实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
开源信息:
- Github仓库: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- HuggingFace模型库: https://huggingface.co/OpenGVLab/InternVideo2_5
- arXiv技术论文: https://arxiv.org/pdf/2501.12386
上海人工智能实验室此次开源InternVideo2.5,不仅展现了其在人工智能领域的研发实力,也为学术界和工业界提供了强大的工具,有望加速视频理解技术的创新和应用。
参考文献:
- OpenGVLab. (2024). InternVideo2.5. Retrieved from https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- OpenGVLab. (2024). InternVideo25. Retrieved from https://huggingface.co/OpenGVLab/InternVideo25
- OpenGVLab. (2024). InternVideo2.5 Technical Paper. Retrieved from https://arxiv.org/pdf/2501.12386
[记者姓名]
[记者职称]
[联系方式]
Views: 0