Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

纽约—— 在人工智能领域,视觉问题解答(VQA)一直被视为检验多模态学习能力的关键战场。长期以来,视觉自监督学习(SSL)在VQA任务中的表现与语言图像预训练模型(CLIP)相比,存在明显差距。这种差距通常被归因于CLIP模型所具备的语言监督优势。然而,由Yann LeCun、谢赛宁等领衔的一项最新研究正在颠覆这一固有认知。

这项研究的核心问题是:在多模态建模中,语言监督对于视觉表征的预训练是否是不可或缺的?研究团队通过大规模实验证明,在相同的数据规模下,视觉SSL模型完全可以与CLIP模型相媲美,甚至在某些特定任务上超越后者。

该研究成果以题为《Scaling Language-Free Visual Representation Learning》的论文形式发表,并在人工智能社区引发了广泛关注。论文链接:https://arxiv.org/pdf/2504.01017 项目地址:https://davidfan.io/webssl/

“我们的目的不是要取代语言监督方法,而是要了解视觉自监督在多模态应用中的内在能力和局限性,”研究者们强调,“为了进行公平的比较,我们在与最先进的CLIP模型相同的数十亿规模的网络数据(特别是MetaCLIP数据集)上训练SSL模型。在比较视觉SSL和CLIP时,这种方法可以控制数据的分布差异。”

论文共同一作David Fan表示,“视觉SSL终于可以在VQA任务上与CLIP匹敌了,即使在OCR & Chart VQA上也非常具有竞争力。我们的全新Web-SSL模型系列证明了这一点,并且仅仅基于网络图像训练,没有进行任何语言监督。”

实验设计与关键发现

为了评估SSL模型的能力,研究人员采用了视觉问题解答(VQA)作为主要框架。他们使用了Cambrian-1中提出的评估套件,该套件涵盖了四个不同VQA类别下的16项任务:通用、知识、OCR & 图表以及Vision-Centric。

研究团队训练了一系列名为Web-SSL的视觉SSL模型,其参数规模从10亿到70亿不等,以便与CLIP进行直接和可控的比较。通过大量的实证研究,他们得出以下几个关键结论:

  • 视觉SSL在广泛的VQA任务中,甚至在OCR & 图表理解等语言相关任务中,可以匹配甚至超越语言监督的视觉预训练方法。 这一发现直接挑战了以往认为语言监督对于VQA任务至关重要的观点。
  • 视觉SSL在模型容量和数据方面都具有良好的扩展性,表明SSL还有巨大的潜力有待挖掘。 随着模型和数据规模的增加,SSL模型的性能持续提升,而CLIP模型在达到一定规模后性能增长趋于饱和。
  • 视觉SSL可以在分类和分割方面保持传统视觉性能的竞争力,同时在VQA方面也有所改进。 这表明SSL模型在多项任务中都具有强大的适应能力。
  • 对包含文本的图像进行更高比例的训练对于提高OCR和图表性能尤为有效。 这一发现为未来的研究提供了有价值的指导,即数据构成对于特定任务的性能至关重要。

实验设置的创新之处

这项研究在实验设置上也有诸多创新之处,主要体现在以下三个方面:

  1. 数据集规模扩展到十亿级图像。 相比于以往的研究,该研究使用了更大规模的数据集进行训练,从而能够更充分地挖掘SSL模型的潜力。
  2. 模型规模扩展到1B参数以上。 通过训练更大规模的模型,研究人员得以探索模型容量对于SSL性能的影响。
  3. 除了ImageNet-1k和ADE20k等经典视觉基准之外,还使用开放式VQA任务评估视觉模型。 这种评估方式更加贴近实际应用场景,能够更全面地评估SSL模型的能力。

对未来研究的启示

这项研究的成果不仅具有重要的理论意义,也为未来的研究提供了宝贵的启示。它表明,视觉SSL在多模态学习领域具有巨大的潜力,有望在未来取代甚至超越语言监督的方法。

此外,研究还强调了数据构成对于特定任务性能的重要性,这为未来的研究提供了新的方向。未来的研究可以进一步探索如何优化数据构成,以提高SSL模型在各种任务中的表现。

总而言之,Yann LeCun、谢赛宁等人的这项研究为视觉自监督学习的发展注入了新的活力,并为人工智能领域的未来发展指明了新的方向。随着研究的不断深入,我们有理由相信,视觉SSL将在未来的多模态学习中发挥越来越重要的作用。

参考文献

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注