【新闻导语】:近日,来自约翰霍普金斯大学(JHU)、纽约大学(NYU)、麻省理工学院(MIT)和哈佛大学等机构的研究团队,发布了首个多模态心智能力(ToM)测试集MMToM-QA。该测试集旨在全面提升大模型的心智能力,但实验结果显示,包括GPT-4V在内的一些大模型在理解他人思维方面存在致命缺陷。
:
人工智能领域一直致力于开发具有类人社会智能的AI模型,其中心智能力(Theory of Mind,ToM)即理解人们思维的能力,是这一目标的重要基础。近日,机器之心AIxiv专栏报道了一项重要研究成果:JHU等机构发布的首个多模态ToM测试集MMToM-QA,旨在全面提升大模型的心智能力。
MMToM-QA是首个多模态的心智能力测试基准,其中每个问题包含三部分:一个人的活动视频、环境和人类动作的文字描述,以及一个ToM问题。与先前的心智能力测试基准相比,MMToM-QA要求在更长的上下文和更复杂多样的环境下,系统性衡量模型的心智能力。
实验结果显示,当人们可以使用不同模态的信息时,他们理解他人的能力会有所提升。然而,多模态模型和LLM(大型语言模型)在所有问题类型上表现得像随机猜测一样,远不如人类。
其中,GPT-4V在MMToM-QA上的表现尤为引人关注。实验发现,GPT-4V在人们的信念与现实一致时表现良好,但当涉及到人们持有错误信念或更新信念时,GPT-4V会系统性犯错,并且在判断目标时表现较差。
为了缩小AI模型与人类表现之间的差距,研究团队提出了一种名为BIP-ALM(Bayesian Inverse Planning Accelerated by Language Models)的新方法。该方法使用适用于不同模态信息的符号表示,模仿人类心智推理的逆向规划方法,并结合语言模型的优势,展现出较好的结果。
此外,研究团队还提出了后续研究MuMA-ToM:Multi-modal Multi-Agent Theory of Mind,将MMToM-QA的测试基准和方法拓展到了多个智能体的领域。实验结果表明,大型多模态模型GPT-4o、Gemini-1.5 Pro等依然表现糟糕,为此,研究团队进一步提出了改进的方法LIMP(Language model-based Inverse Multi-agent Planning)。
总之,此次研究揭示了AI心智能力在理解他人思维方面面临的挑战,同时也为未来AI模型的发展提供了新的思路和方法。随着研究的不断深入,相信AI在心智能力方面将取得更大的突破。
【结语】:人工智能的发展离不开对人类智能的深入理解和模拟。此次研究为AI心智能力的提升提供了有力支持,相信在未来,AI将在这一领域取得更加显著的成果。
Views: 0