Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)近日联合南京大学、中科院深圳先进技术研究院,正式开源其最新一代视频多模态大模型——InternVideo2.5。这一举措标志着国产AI技术在视频理解领域取得了又一重要进展,尤其是在长视频处理和细粒度时空感知方面实现了显著突破。

InternVideo2.5最引人注目的特点在于其强大的长视频处理能力。相较于前代产品,新模型能够处理长达万帧的视频,处理长度提升了6倍。这意味着它能够胜任“大海捞针”式的检索任务,在冗长的视频内容中精准定位目标帧,极大地提升了视频分析的效率。

技术亮点:从长时上下文建模到任务偏好优化

InternVideo2.5的技术核心在于以下几个方面:

  • 长时丰富上下文建模 (LRC): 通过扩展模型的上下文长度和细节感知能力,LRC使InternVideo2.5能够处理更长的视频序列。其关键在于视频长度自适应令牌表示,模型会根据视频长度和内容特征动态调整帧采样策略,确保在不同时间尺度上有效捕捉运动信息。例如,短视频采用密集采样,而长视频则采用稀疏采样。此外,分层上下文压缩 (HiCo) 通过分层压缩机制减少视频信号中的时空冗余,同时保留关键信息,包括时空令牌合并和多模态上下文整合。
  • 任务偏好优化 (TPO): TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习,从而使InternVideo2.5能够处理多种专业视觉任务,如目标跟踪、分割、时间定位等。这通过集成任务特定组件(如时间头、掩码适配器等)并通过任务特定数据集进行训练来实现。同时,视觉概念预训练使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
  • 渐进式多阶段训练方案: InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能。该方案包括基础学习阶段、细粒度感知训练阶段和综合优化阶段。
  • 高效分布式系统: 为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统,结合了序列和张量分布式处理以及动态数据打包技术,显著提高了训练效率。

应用前景广阔:从视频检索到自动驾驶

InternVideo2.5的强大功能使其在多个领域拥有广阔的应用前景:

  • 视频内容理解和检索: 模型能够根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
  • 视频编辑和创作: InternVideo2.5能为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词,并根据用户的指令对视频进行剪辑和调整,提高视频创作的效率。
  • 监控安防: 在监控安防领域,InternVideo2.5能实时分析监控视频,快速定位异常事件并发出警报。
  • 自动驾驶: InternVideo2.5能实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。

开源信息:

上海人工智能实验室此次开源InternVideo2.5,不仅展现了其在人工智能领域的研发实力,也为学术界和工业界提供了强大的工具,有望加速视频理解技术的创新和应用。

参考文献:

[记者姓名]

[记者职称]

[联系方式]


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注