不让视觉语言模型「盲猜」,性能竟直接提升一倍?

AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年来,视觉语言模型(VLMs)在诸如 MME、MMBench、MMMU 和 ScienceQA 等复杂的视觉问答(VQA)基准上取得了显著进展。 GPT-4o、Qwen2-VL 等模型在这些基准上表现出色,涵盖了大学课程、常识推理、图表理解,以及数学、编程、物理和时序预测等任务。然而,这些模型真的理解自然图像吗?

近日,卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench,这是一项发表于 NeurIPS’24 的以视觉为核心的 VQA 基准。 它通过自然图像上的简单问题——即自然对抗样本(Natural Adversarial Samples)——对视觉语言模型发起严峻挑战。

论文链接: https://arxiv.org/abs/2410.14669

网站: https://huggingface.co/datasets/BaiqiL/NaturalBench

研究团队发现,现有的 VLMs 在应对自然图像中的简单问题时仍存在不足。 即使是人类能轻松解答的 VQA 示例,即使是最先进的模型也常会出错。研究团队将这些问题称为「自然对抗样本」。

模型之所以能在以往流行的 VQA 基准上表现出色,主要依赖于其过度的语言偏见(Language Bias)。 为了证明这一点,研究团队展示了六大基准中的一些问题,即使不查看图像也能作答。例如,模型可以通过语言先验(Language Prior)回答诸如「马萨诸塞州的首府是什么?」(「波士顿」)和「图片中有黑色长颈鹿吗?」(「否」)这样的问题,而无需依赖图像信息。

为了解决这一问题,NaturalBench 设计了配对任务,将两幅图片与两个相反答案的问题匹配,以避免模型可以凭「盲猜」侥幸答对。 NaturalBench 数据集收集过程通过一个简单的流程从 Flickr30K 等图文数据集中构建,具体步骤如下:

  1. 找出 CLIP 无法正确匹配的图文对。
  2. 使用 ChatGPT 为每个图文对生成相反答案的问题。

通过避免对图像或问题进行非自然干扰,NaturalBench 生成了自然的对抗样本。 这些样本基于自然图像提出的问题,人类可以轻松理解并回答,但对模型来说却极具挑战。通过该流程及人工质检,研究团队最终收集了 10,000 个高质量 VQA 样本,用于可靠评估视觉语言模型。

NaturalBench 实验结果基于 NaturalBench 中「两张图片 + 两个问题」配对的格式,研究团队提出了更可靠的视觉为中心评估指标 ——Group Accuracy (G-Acc)。 只有当模型正确回答一个样本中的所有四个(图片、问题)组合时,才能得一分。研究人员发现了以下重要的实验结论:

  1. 先前的 VQA 基准存在盲猜问题: 流行的 VQA 基准,(如 MME 和 ScienceQA)可以通过微调不具视觉能力的 GPT-3.5 来解决,其表现甚至超过了经过视觉微调的 LLaVA-1.5。然而,在 NaturalBench 上,这种「盲猜」模型只能得到零分!这表明,当前的视觉语言模型可能在视觉问答任务上依赖强大的语言盲猜能力「浑水摸鱼」。

  2. 当前开源模型的表现有限: 研究团队对 53 个视觉语言模型进行了测试,结果显示,大多数开源模型(如 BLIP-3、Cambrian-1、LLaVA-OneVision、Llama3.2-Vision、Molmo 和Qwen2-VL)的得分仅比随机水平高 10%-20%。即使是经过视觉微调的 GPT-4o,其表现仍比人类低 50%。这表明,目前的视觉语言模型在自然图像的视觉理解能力上还有巨大提升空间。

NaturalBench 实验讨论

研究人员对提升视觉语言模型的方向进行了探讨,并发现两个重点:

  1. 让大模型不再「盲选」: 大多数模型失败的关键在于,无论图像内容如何,它们总是盲目选择相同的选项。在 GPT-4o 出错的问题中,超过 80% 是因为模型在任何图像下都选择了同一答案(如「是」)。研究人员发现,纠正这一倾向后,模型性能可提升两到三倍!研究团队采用了一种基于评分的评估方式(VQAScore),通过调整同一问题下两个不同选项的得分差,确保模型在回答「是」和「否」时的比例保持一致。仅凭这一简单调整,像 GPT-4o 这样的强大模型的表现几乎翻了两倍!

  2. 加强视觉理解能力: 研究人员认为,未来需要更关注视觉语言模型的视觉理解能力,而不是仅仅依赖语言先验。他们建议使用更具挑战性的视觉任务来训练模型,例如图像分类、目标检测和场景理解。

NaturalBench 的出现为视觉语言模型的评估提供了新的视角, 它揭示了当前模型在视觉理解方面的不足,并为未来的研究方向指明了道路。研究团队相信,通过更有效的评估方法和训练策略,视觉语言模型将能够更好地理解自然图像,并在更广泛的领域发挥更大的作用。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注