近日,来自约翰霍普金斯大学(JHU)、纽约大学(NYU)、麻省理工学院(MIT)、哈佛大学等机构的研究团队,发布了首个多模态心智能力(Theory of Mind,ToM)测试集MMToM-QA。这一测试集旨在全面提升大模型的心智能力,即理解人们思维的能力。在刚刚结束的ACL 2024会议上,该团队的研究论文荣获杰出论文奖。
MMToM-QA是首个多模态的心智能力测试基准,它要求模型在更长的上下文和更复杂多样的环境下,系统性衡量心智能力。每个问题包含一个人的活动视频、环境和人类动作的文字描述,以及一个ToM问题。与先前单一模态的测试基准相比,MMToM-QA要求模型在更复杂的情况下进行推理和判断。
实验结果显示,当人们可以使用不同模态的信息时,他们的心智能力会有所提升。然而,多模态模型和大型语言模型(LLM)的表现却远不如人类。在所有问题类型上,这些模型表现得像随机猜测一样。其中,GPT-4V在涉及信念和目标判断时,存在系统性缺陷。
为了缩小AI模型和人类表现之间的差距,研究团队提出了一种名为BIP-ALM(贝叶斯逆向规划加速语言模型)的新方法。该方法通过提取符号表示、对齐和融合,以及使用逆向规划方法,有效地推断各种心理状态的概率。
未来,该团队将继续研究多智能体的多模态心智模型MuMA-ToM,将MMToM-QA的测试基准和方法拓展到多个智能体的领域。此外,研究团队还提出了LIMP(基于语言模型的逆向多智能体规划)方法,以提高模型的通用性和灵活性。
此次研究为AI心智能力的发展带来了新的挑战,也为后续研究提供了新的方向。相信在不久的将来,随着AI心智能力的不断提升,我们将迎来更加智能、贴心的AI产品和服务。
Views: 0