Meta革新AI：V-JEPA视觉模型，观看视频解锁物理世界理解新能力

8 月 28, 2024 #metav, #每日AI快讯

Meta的研究团队近日发布了一项名为V-JEPA（Video Joint-Embedding Predictive Architecture）的创新视觉模型，该模型利用自监督学习，通过观看视频来理解物理世界的动态和规律。这一技术的出现，为AI在视频理解和视觉表示学习领域带来了新的突破。

自监督学习，无须外部监督

V-JEPA的核心在于其自监督学习机制，无需预训练的图像编码器、文本、负例或像素级重构等外部监督。模型通过预测视频帧之间的特征表示，从视频数据中自我学习，形成对视频内容的抽象理解。

V-JEPA采用了一种独特的网络结构，包括一个编码器和一个预测器。编码器负责提取视频帧的特征，而预测器则基于这些特征预测目标帧的特征表示，以此学习视频的时间连续性和空间结构。

在训练过程中，V-JEPA使用多块掩蔽策略，掩蔽不同时间点的视频区域，促进模型学习全面的视频表示。模型在大规模数据集上预训练，包括200万个来自多个公共数据集的视频片段。

V-JEPA的预训练模型在多种下游任务中表现出色，无需额外调整参数。同时，即使在有限的标注数据下，也能保持良好的性能，降低了对昂贵数据标注的依赖。此外，V-JEPA在视频和图像任务中均展现出跨模态的性能，如动作识别、运动分类和ImageNet图像分类。

V-JEPA的训练过程高效，能在较短时间内学习到有效的视觉表示，为处理大规模视频数据集提供了可能性。

这一技术的发布，预示着AI在视频理解方面的能力将得到显著提升，有望在未来应用于更广泛的领域，包括但不限于智能家居、自动驾驶、安防监控等，进一步推动人工智能与现实世界的融合。

【source】https://ai-bot.cn/v-jepa/