视觉SSL逆袭！LeCun新作赶超CLIP

纽约—— 在人工智能领域，视觉问题解答（VQA）一直被视为检验多模态学习能力的关键战场。长期以来，视觉自监督学习（SSL）在VQA任务中的表现与语言图像预训练模型（CLIP）相比，存在明显差距。这种差距通常被归因于CLIP模型所具备的语言监督优势。然而，由Yann LeCun、谢赛宁等领衔的一项最新研究正在颠覆这一固有认知。

这项研究的核心问题是：在多模态建模中，语言监督对于视觉表征的预训练是否是不可或缺的？研究团队通过大规模实验证明，在相同的数据规模下，视觉SSL模型完全可以与CLIP模型相媲美，甚至在某些特定任务上超越后者。

该研究成果以题为《Scaling Language-Free Visual Representation Learning》的论文形式发表，并在人工智能社区引发了广泛关注。论文链接：https://arxiv.org/pdf/2504.01017 项目地址：https://davidfan.io/webssl/

“我们的目的不是要取代语言监督方法，而是要了解视觉自监督在多模态应用中的内在能力和局限性，”研究者们强调，“为了进行公平的比较，我们在与最先进的CLIP模型相同的数十亿规模的网络数据（特别是MetaCLIP数据集）上训练SSL模型。在比较视觉SSL和CLIP时，这种方法可以控制数据的分布差异。”

论文共同一作David Fan表示，“视觉SSL终于可以在VQA任务上与CLIP匹敌了，即使在OCR & Chart VQA上也非常具有竞争力。我们的全新Web-SSL模型系列证明了这一点，并且仅仅基于网络图像训练，没有进行任何语言监督。”

实验设计与关键发现

为了评估SSL模型的能力，研究人员采用了视觉问题解答（VQA）作为主要框架。他们使用了Cambrian-1中提出的评估套件，该套件涵盖了四个不同VQA类别下的16项任务：通用、知识、OCR & 图表以及Vision-Centric。

研究团队训练了一系列名为Web-SSL的视觉SSL模型，其参数规模从10亿到70亿不等，以便与CLIP进行直接和可控的比较。通过大量的实证研究，他们得出以下几个关键结论：

视觉SSL在广泛的VQA任务中，甚至在OCR & 图表理解等语言相关任务中，可以匹配甚至超越语言监督的视觉预训练方法。 这一发现直接挑战了以往认为语言监督对于VQA任务至关重要的观点。
视觉SSL在模型容量和数据方面都具有良好的扩展性，表明SSL还有巨大的潜力有待挖掘。 随着模型和数据规模的增加，SSL模型的性能持续提升，而CLIP模型在达到一定规模后性能增长趋于饱和。
视觉SSL可以在分类和分割方面保持传统视觉性能的竞争力，同时在VQA方面也有所改进。 这表明SSL模型在多项任务中都具有强大的适应能力。
对包含文本的图像进行更高比例的训练对于提高OCR和图表性能尤为有效。 这一发现为未来的研究提供了有价值的指导，即数据构成对于特定任务的性能至关重要。

实验设置的创新之处

这项研究在实验设置上也有诸多创新之处，主要体现在以下三个方面：

数据集规模扩展到十亿级图像。 相比于以往的研究，该研究使用了更大规模的数据集进行训练，从而能够更充分地挖掘SSL模型的潜力。
模型规模扩展到1B参数以上。 通过训练更大规模的模型，研究人员得以探索模型容量对于SSL性能的影响。
除了ImageNet-1k和ADE20k等经典视觉基准之外，还使用开放式VQA任务评估视觉模型。 这种评估方式更加贴近实际应用场景，能够更全面地评估SSL模型的能力。

对未来研究的启示

这项研究的成果不仅具有重要的理论意义，也为未来的研究提供了宝贵的启示。它表明，视觉SSL在多模态学习领域具有巨大的潜力，有望在未来取代甚至超越语言监督的方法。

此外，研究还强调了数据构成对于特定任务性能的重要性，这为未来的研究提供了新的方向。未来的研究可以进一步探索如何优化数据构成，以提高SSL模型在各种任务中的表现。

总而言之，Yann LeCun、谢赛宁等人的这项研究为视觉自监督学习的发展注入了新的活力，并为人工智能领域的未来发展指明了新的方向。随着研究的不断深入，我们有理由相信，视觉SSL将在未来的多模态学习中发挥越来越重要的作用。

参考文献

Scaling Language-Free Visual Representation Learning. https://arxiv.org/pdf/2504.01017
WebSSL Project Page. https://davidfan.io/webssl/

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

视觉SSL逆袭！LeCun新作赶超CLIP

作者智能小编

相关文章

Gemini 2.5升级！挑战Veo 2，AI视频大战爆发

Gemini 2.5 震撼登场：Pro、Flash 与优化器齐发！

人形机器人：资本狂涌，亿元融资成常态

发表回复取消回复

为您推荐