Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news studionews studio
0

好的,根据你提供的信息,我将撰写一篇关于VLM²-Bench的新闻稿,重点突出其揭示的视觉语言模型在“视觉关联”能力上的短板。

“`markdown

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

摘要: 一项由港科大与MIT研究团队主导的最新研究表明,尽管视觉语言模型(VLMs)在复杂知识推理和专业场景中表现出色,但在人类看来“无需思考”的视觉关联能力上却存在显著短板。该团队发布的VLM²-Bench基准测试,旨在系统性地评估模型在基础视觉线索关联能力上的表现,结果显示,当前VLMs在该领域的能力远逊于人类。

(机器之心原创 2025/03/14 15:48)

在人工智能领域,视觉语言模型(VLMs)正以前所未有的速度发展,它们能够理解图像和文本,并在此基础上进行推理和决策。然而,一项新的研究表明,这些模型在某些看似简单的任务上却表现得令人惊讶地迟钝。

由香港科技大学和麻省理工学院(MIT)的研究团队联合推出的VLM²-Bench,旨在评估VLMs在“人类级基础视觉线索关联能力”上的表现。这项研究的出发点是:如果一项能力对人类而言是本能反应,但对AI来说却构成巨大挑战,那么这是否才是VLMs亟待突破的核心瓶颈?

该研究由武汉大学本科生张鉴殊(将于2025年秋季前往美国西北大学攻读CS PhD)和卡内基梅隆大学(CMU)MSCV项目学生姚栋宇共同担任第一作者。

VLM²-Bench:挑战VLMs的“本能”

VLM²-Bench的设计灵感来源于日常生活中的常见场景。例如,人类可以轻松地在多张照片中识别出同一个人,或者通过比对图片在线下门店找到同款商品,而无需事先了解相关知识。这种基于视觉特征的关联能力,对人类来说是“无需思考”的本能。

然而,对于VLMs来说,这项任务却异常困难。随着VLMs从单图处理扩展到多图、视频输入,其视觉感知的广度和深度显著提升。然而,视觉内容的扩展并未带来对视觉线索关联能力的同步提升,而 VLMs 时需要具有 “回头” 关联视觉线索的能力来帮助在其更一致且和谐的理解世界。

VLM²-Bench全面考察VLMs对于通用线索(General Cue,GC)、物体线索(Object-centric Cue,OC)和人物线索(Person-centric Cue,PC)三个大类的基础关联能力,共包含9个子任务,涵盖多图和视频测试数据,总计3060个测试案例。测试题型包括判断题、多选题、数值题和开放题,并针对每种题型设计了特定的评估方式。

实验结果:AI与人类的巨大差距

为了更准确地评估VLMs的性能,研究人员引入了“蒙题”(Chance-Level)和“人类作答”(Human-Level)两个基准。实验结果令人惊讶:VLM²-Bench对人类来说几乎没有难度,但绝大多数VLMs的准确率甚至低于随机猜测,与人类表现差距甚大。尤其是在描述视频中出现的人物(VID)这一任务上,模型容易将不同的人误认为同一人。

研究还发现,模型在关联人物线索(PC)上的表现优于物体线索(OC),这可能与训练数据中人物相关的图文数据提供了更明确的文本锚点有关,例如人名。

进一步分析显示,VLMs在视觉线索关联任务中普遍存在“过度依赖线索连续可见性”的问题,缺乏全局关联的动态视觉理解能力。

Prompting方法:效果有限

研究人员还尝试了以语言为中心(CoT-)和以视觉为中心(VP-)的prompting方法,以期提升模型的视觉关联能力。结果表明:

  • 以语言为中心的推理在一定程度上可以促进关联时的逻辑,但前提是视觉线索适合用语言表达。
  • 以视觉为中心的提示在物体线索(OC)场景下有一定帮助,但在人物线索(PC)场景下反而可能适得其反。
  • 视觉提示的效果与模型的视觉基础能力呈正相关,只有当模型能够理解视觉提示带来的额外信息时,才能发挥较好的效果。

未来方向:增强基础视觉能力,平衡语言推理

该研究揭示了当前VLMs在视觉关联能力上的短板,并为未来的研究方向提供了启示:

  1. 增强基础视觉能力: 提升模型的核心视觉能力,增强适应性,并最大化视觉提示的效果。
  2. 平衡基于语言的推理在视觉任务中的作用: 谨慎调整语言推理在视觉任务中的应用,明确其适用场景,避免引入不必要的偏差。
  3. 新的训练范式: 随着模型视觉上下文窗口的扩展,应优先发展在视觉域内进行推理的能力。

VLM²-Bench的发布,为VLMs的研究提供了一个新的视角,并有望推动该领域的发展,使AI能够更好地理解和模拟人类的视觉感知能力。

论文链接:https://arxiv.org/pdf/2502.12084

项目主页:https://vlm2-bench.github.io/
“`

说明:

  • 标题和摘要: 简洁明了地概括了文章的核心内容。
  • 引言: 设置悬念,吸引读者。
  • 主体:
    • 详细介绍了VLM²-Bench的研究背景、目的和方法。
    • 清晰地呈现了实验结果,并进行了深入分析。
    • 讨论了prompting方法的效果,并提出了未来的研究方向。
  • 结论: 总结了文章的要点,强调了研究的重要性和影响。
  • 链接: 提供了论文链接和项目主页,方便读者进一步了解。
  • 语言风格: 采用新闻报道的语言风格,客观、准确、简洁。

希望这篇新闻稿能够满足你的要求。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注