GPT-4V现致命缺陷？多模态ToM测试集问世！

作者智能小编

9 月 12, 2024 #新闻, #机器之心

近日，来自约翰霍普金斯大学（JHU）、纽约大学（NYU）、麻省理工学院（MIT）、哈佛大学等机构的研究团队，发布了首个多模态心智能力（Theory of Mind，ToM）测试集MMToM-QA。这一测试集旨在全面提升大模型的心智能力，即理解人们思维的能力。在刚刚结束的ACL 2024会议上，该团队的研究论文荣获杰出论文奖。

MMToM-QA是首个多模态的心智能力测试基准，它要求模型在更长的上下文和更复杂多样的环境下，系统性衡量心智能力。每个问题包含一个人的活动视频、环境和人类动作的文字描述，以及一个ToM问题。与先前单一模态的测试基准相比，MMToM-QA要求模型在更复杂的情况下进行推理和判断。

实验结果显示，当人们可以使用不同模态的信息时，他们的心智能力会有所提升。然而，多模态模型和大型语言模型（LLM）的表现却远不如人类。在所有问题类型上，这些模型表现得像随机猜测一样。其中，GPT-4V在涉及信念和目标判断时，存在系统性缺陷。

为了缩小AI模型和人类表现之间的差距，研究团队提出了一种名为BIP-ALM（贝叶斯逆向规划加速语言模型）的新方法。该方法通过提取符号表示、对齐和融合，以及使用逆向规划方法，有效地推断各种心理状态的概率。

未来，该团队将继续研究多智能体的多模态心智模型MuMA-ToM，将MMToM-QA的测试基准和方法拓展到多个智能体的领域。此外，研究团队还提出了LIMP（基于语言模型的逆向多智能体规划）方法，以提高模型的通用性和灵活性。

此次研究为AI心智能力的发展带来了新的挑战，也为后续研究提供了新的方向。相信在不久的将来，随着AI心智能力的不断提升，我们将迎来更加智能、贴心的AI产品和服务。

>>> Read more <<<