GPT-4V’s Fatal Flaw Exposed New Multimodal ToMTest Unveiled at ACL

作者智能小编

9 月 12, 2024 #4vflaws, #aclaward, #机器之心

新闻报道

【新闻导语】：近日，来自约翰霍普金斯大学（JHU）、纽约大学（NYU）、麻省理工学院（MIT）和哈佛大学等机构的研究团队，发布了首个多模态心智能力（ToM）测试集MMToM-QA。该测试集旨在全面提升大模型的心智能力，但实验结果显示，包括GPT-4V在内的一些大模型在理解他人思维方面存在致命缺陷。

：

人工智能领域一直致力于开发具有类人社会智能的AI模型，其中心智能力（Theory of Mind，ToM）即理解人们思维的能力，是这一目标的重要基础。近日，机器之心AIxiv专栏报道了一项重要研究成果：JHU等机构发布的首个多模态ToM测试集MMToM-QA，旨在全面提升大模型的心智能力。

MMToM-QA是首个多模态的心智能力测试基准，其中每个问题包含三部分：一个人的活动视频、环境和人类动作的文字描述，以及一个ToM问题。与先前的心智能力测试基准相比，MMToM-QA要求在更长的上下文和更复杂多样的环境下，系统性衡量模型的心智能力。

实验结果显示，当人们可以使用不同模态的信息时，他们理解他人的能力会有所提升。然而，多模态模型和LLM（大型语言模型）在所有问题类型上表现得像随机猜测一样，远不如人类。

其中，GPT-4V在MMToM-QA上的表现尤为引人关注。实验发现，GPT-4V在人们的信念与现实一致时表现良好，但当涉及到人们持有错误信念或更新信念时，GPT-4V会系统性犯错，并且在判断目标时表现较差。

为了缩小AI模型与人类表现之间的差距，研究团队提出了一种名为BIP-ALM（Bayesian Inverse Planning Accelerated by Language Models）的新方法。该方法使用适用于不同模态信息的符号表示，模仿人类心智推理的逆向规划方法，并结合语言模型的优势，展现出较好的结果。

此外，研究团队还提出了后续研究MuMA-ToM：Multi-modal Multi-Agent Theory of Mind，将MMToM-QA的测试基准和方法拓展到了多个智能体的领域。实验结果表明，大型多模态模型GPT-4o、Gemini-1.5 Pro等依然表现糟糕，为此，研究团队进一步提出了改进的方法LIMP（Language model-based Inverse Multi-agent Planning）。

总之，此次研究揭示了AI心智能力在理解他人思维方面面临的挑战，同时也为未来AI模型的发展提供了新的思路和方法。随着研究的不断深入，相信AI在心智能力方面将取得更大的突破。

【结语】：人工智能的发展离不开对人类智能的深入理解和模拟。此次研究为AI心智能力的提升提供了有力支持，相信在未来，AI将在这一领域取得更加显著的成果。

>>> Read more <<<