纽约—— 在人工智能领域,视觉问题解答(VQA)一直被视为检验多模态学习能力的关键战场。长期以来,视觉自监督学习(SSL)在VQA任务中的表现与语言图像预训练模型(CLIP)相比,存在明显差距。这种差距通常被归因于CLIP模型所具备的语言监督优势。然而,由Yann LeCun、谢赛宁等领衔的一项最新研究正在颠覆这一固有认知。
这项研究的核心问题是:在多模态建模中,语言监督对于视觉表征的预训练是否是不可或缺的?研究团队通过大规模实验证明,在相同的数据规模下,视觉SSL模型完全可以与CLIP模型相媲美,甚至在某些特定任务上超越后者。
该研究成果以题为《Scaling Language-Free Visual Representation Learning》的论文形式发表,并在人工智能社区引发了广泛关注。论文链接:https://arxiv.org/pdf/2504.01017 项目地址:https://davidfan.io/webssl/
“我们的目的不是要取代语言监督方法,而是要了解视觉自监督在多模态应用中的内在能力和局限性,”研究者们强调,“为了进行公平的比较,我们在与最先进的CLIP模型相同的数十亿规模的网络数据(特别是MetaCLIP数据集)上训练SSL模型。在比较视觉SSL和CLIP时,这种方法可以控制数据的分布差异。”
论文共同一作David Fan表示,“视觉SSL终于可以在VQA任务上与CLIP匹敌了,即使在OCR & Chart VQA上也非常具有竞争力。我们的全新Web-SSL模型系列证明了这一点,并且仅仅基于网络图像训练,没有进行任何语言监督。”
实验设计与关键发现
为了评估SSL模型的能力,研究人员采用了视觉问题解答(VQA)作为主要框架。他们使用了Cambrian-1中提出的评估套件,该套件涵盖了四个不同VQA类别下的16项任务:通用、知识、OCR & 图表以及Vision-Centric。
研究团队训练了一系列名为Web-SSL的视觉SSL模型,其参数规模从10亿到70亿不等,以便与CLIP进行直接和可控的比较。通过大量的实证研究,他们得出以下几个关键结论:
- 视觉SSL在广泛的VQA任务中,甚至在OCR & 图表理解等语言相关任务中,可以匹配甚至超越语言监督的视觉预训练方法。 这一发现直接挑战了以往认为语言监督对于VQA任务至关重要的观点。
- 视觉SSL在模型容量和数据方面都具有良好的扩展性,表明SSL还有巨大的潜力有待挖掘。 随着模型和数据规模的增加,SSL模型的性能持续提升,而CLIP模型在达到一定规模后性能增长趋于饱和。
- 视觉SSL可以在分类和分割方面保持传统视觉性能的竞争力,同时在VQA方面也有所改进。 这表明SSL模型在多项任务中都具有强大的适应能力。
- 对包含文本的图像进行更高比例的训练对于提高OCR和图表性能尤为有效。 这一发现为未来的研究提供了有价值的指导,即数据构成对于特定任务的性能至关重要。
实验设置的创新之处
这项研究在实验设置上也有诸多创新之处,主要体现在以下三个方面:
- 数据集规模扩展到十亿级图像。 相比于以往的研究,该研究使用了更大规模的数据集进行训练,从而能够更充分地挖掘SSL模型的潜力。
- 模型规模扩展到1B参数以上。 通过训练更大规模的模型,研究人员得以探索模型容量对于SSL性能的影响。
- 除了ImageNet-1k和ADE20k等经典视觉基准之外,还使用开放式VQA任务评估视觉模型。 这种评估方式更加贴近实际应用场景,能够更全面地评估SSL模型的能力。
对未来研究的启示
这项研究的成果不仅具有重要的理论意义,也为未来的研究提供了宝贵的启示。它表明,视觉SSL在多模态学习领域具有巨大的潜力,有望在未来取代甚至超越语言监督的方法。
此外,研究还强调了数据构成对于特定任务性能的重要性,这为未来的研究提供了新的方向。未来的研究可以进一步探索如何优化数据构成,以提高SSL模型在各种任务中的表现。
总而言之,Yann LeCun、谢赛宁等人的这项研究为视觉自监督学习的发展注入了新的活力,并为人工智能领域的未来发展指明了新的方向。随着研究的不断深入,我们有理由相信,视觉SSL将在未来的多模态学习中发挥越来越重要的作用。
参考文献
- Scaling Language-Free Visual Representation Learning. https://arxiv.org/pdf/2504.01017
- WebSSL Project Page. https://davidfan.io/webssl/
(完)
Views: 0