Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714
0

上海—— 上海人工智能实验室(Shanghai AI Lab)联合南京大学、中科院深圳先进技术研究院近日开源了新一代视频多模态大模型InternVideo2.5,在视频理解领域取得了重大突破。该模型尤其擅长处理长视频和进行细粒度时空感知,为视频内容理解、检索、编辑以及自动驾驶等领域带来了新的可能性。

长视频处理能力大幅提升

InternVideo2.5最引人注目的特点是其强大的长视频处理能力。相较于前代模型,InternVideo2.5能够处理长达万帧的视频,处理长度提升了6倍。这意味着模型能够在更长的时间跨度内理解视频内容,并精准定位目标帧,实现“大海捞针”式的检索。

这种能力得益于InternVideo2.5采用的“长时丰富上下文建模(LRC)”技术。LRC通过扩展模型的上下文长度和细节感知能力,使模型能够处理更长的视频序列。其核心技术包括:

  • 视频长度自适应令牌表示: 根据视频的长度和内容特征动态调整帧采样策略,确保在不同时间尺度上有效捕捉运动信息。例如,短视频采用密集采样,而长视频则采用稀疏采样。
  • 分层上下文压缩(HiCo): 通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。HiCo通过基于语义相似性的令牌合并,在保留细节的同时显著减少了冗余信息。

细粒度时空感知与多模态融合

除了长视频处理能力,InternVideo2.5还具备出色的细粒度时空感知能力。模型能够准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。这使得模型能够支持通用视频问答,并完成目标跟踪、分割等专业视觉任务。

此外,InternVideo2.5将视觉感知和语言理解深度融合,能够根据视频内容生成详细的描述和回答用户的问题。这种多模态融合能力使得模型能够更好地理解视频内容,并将其转化为人类可理解的语言。

任务偏好优化(TPO)与高效预训练

为了支持多种专业视觉任务,InternVideo2.5采用了任务偏好优化(TPO)技术。TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。具体实现方式包括:

  • 任务特定组件集成: 在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
  • 视觉概念预训练: 使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。

为了提升模型性能并降低训练成本,InternVideo2.5采用了渐进式多阶段训练方案,使用超过30万小时的视频语料进行预训练。

广泛的应用前景

InternVideo2.5的开源,为视频内容理解和应用带来了广阔的前景。该模型可以应用于:

  • 视频内容理解和检索: 根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
  • 视频编辑和创作: 为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。
  • 监控安防: 实时分析监控视频,快速定位异常事件并发出警报。
  • 自动驾驶: 实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。

开源信息

InternVideo2.5的项目地址如下:

上海AI Lab此次开源InternVideo2.5,无疑将推动视频理解技术的进一步发展,并为各行各业带来创新应用。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注