Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

上海人工智能实验室(Shanghai AI Lab)联合南京大学、中科院深圳先进技术研究院近日开源了InternVideo2.5,一款强大的视频多模态大模型。该模型在视频理解领域取得了显著突破,尤其是在长视频处理和细粒度时空感知方面,为视频内容理解和应用带来了新的可能性。

长视频处理能力跃升6倍,精准定位“大海捞针”

InternVideo2.5最引人注目的特点之一是其强大的长视频处理能力。相较于前代产品,InternVideo2.5能够处理长达万帧的视频,处理长度提升了6倍。这意味着该模型能够有效分析更长时间的视频内容,并在其中精准定位目标帧,实现“大海捞针”式的检索。

这一突破得益于InternVideo2.5采用的长时丰富上下文建模(LRC)技术。LRC通过扩展模型的上下文长度和细节感知能力,使模型能够有效处理长视频。其核心包含:

  • 视频长度自适应令牌表示: 根据视频的长度和内容特征动态调整帧采样策略。短序列采用密集采样,长序列则采用稀疏采样,确保在不同时间尺度上有效捕捉运动信息。
  • 分层上下文压缩(HiCo): 通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。HiCo通过时空令牌合并和多模态上下文整合,在保留细节的同时,显著减少了冗余信息。

细粒度时空感知,赋能专业视觉任务

除了长视频处理能力,InternVideo2.5在细粒度时空感知方面也表现出色。该模型能够准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。这使得InternVideo2.5能够支持通用视频问答,并完成目标跟踪、分割等专业视觉任务。

为了实现这一目标,InternVideo2.5采用了任务偏好优化(TPO)技术。TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。具体实现方式包括:

  • 任务特定组件集成: 在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
  • 视觉概念预训练: 使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。

多模态融合与高效训练,打造卓越性能

InternVideo2.5不仅在视觉感知方面表现出色,还实现了视觉感知和语言理解的深度融合。该模型能够根据视频内容生成详细的描述,并回答用户提出的问题。

为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统。该系统结合了序列和张量分布式处理,以及动态数据打包技术,显著提高了训练效率。同时,InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能:

  • 基础学习阶段: 进行任务识别指令调整和视频语言对齐训练。
  • 细粒度感知训练阶段: 通过集成任务特定组件和视觉概念预训练,增强视觉理解能力。
  • 综合优化阶段: 在混合语料库上进行多任务训练和指令调整,优化所有模型组件。

应用场景广泛,未来可期

InternVideo2.5的强大性能使其在多个领域具有广泛的应用前景:

  • 视频内容理解和检索: 能够根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
  • 视频编辑和创作: 为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。
  • 监控安防: 实时分析监控视频,快速定位异常事件并发出警报。
  • 自动驾驶: 实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。

InternVideo2.5的开源无疑将加速视频理解技术的发展,并推动其在更多领域的应用。随着技术的不断进步,我们有理由期待InternVideo2.5在未来能够为我们带来更多惊喜。

项目地址


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注