北京时间2025年2月28日 – 在人工智能领域,大语言模型(LLM)正日益成为研究焦点。然而,与逻辑思维能力(如Chain-of-Thought)相比,LLM的创造力,或者说“跳跃式思维”(Leap-of-Thought)能力,长期以来缺乏深入的探讨和有效的评估。近日,一项由中山大学、哈佛大学、鹏城实验室、新加坡管理大学的研究团队联合进行的研究,为解决这一难题带来了新的突破。该研究提出了一种多轮交互的可信自动化创造力评估范式LoTbench,并揭示了不同LLM在创造力方面的显著差异:DeepSeek表现相对逊色,而Qwen系列则展现出接近人类顶尖水平的创造力。
这项研究成果已发表在IEEE TPAMI期刊上,论文题目为《A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models》。
创造力评估的困境与LoTbench的诞生
长期以来,LLM创造力评估面临着诸多挑战。传统的评估方法,如选择题或排序题,在考察逻辑思维方面有效,但难以准确衡量创造力。原因在于,这些方法侧重于判断LLM是否能识别创新内容,而非考察其生成创新内容的能力。此外,人工评估虽然准确,但成本高昂且难以持续;而LLM-as-a-judge的方法,其评估能力尚处于初级阶段,且稳定性不足。
为了克服这些困难,研究团队另辟蹊径,将创造力评估转化为衡量LLM产生高质量创新内容所需“代价”的问题。LoTbench范式应运而生,它通过多轮交互,考察LLM在给定条件下生成与人类高质量创新内容(HHCR)相似响应的能力。LLM仅需少量轮次即可生成HHCR,则表明其具有较强的创造力;反之,则表明其创造力不足。
LoTbench的具体流程
LoTbench的具体流程如下:
- 数据精选: 从日式冷吐槽游戏中精选出具有人类高质量创新内容(HHCR)的数据。
- 构建MLM任务: 要求LLM每一轮根据图文信息,生成Rt补全给定文字空缺。
- 相似性判断: 判断生成的Rt和R(即HHCR)是否具有“异曲同工之妙”(different approach but equally satisfactory outcome, DAESO)。
- 创造力评分: 若Rt与R相似,则根据生成轮数计算创造力分数;否则,进入下一轮生成。
日式冷吐槽:创造力测评的理想平台
研究团队选择日式冷吐槽游戏作为LLM创造力测评的平台,原因在于:
- 高创造力要求: 这类游戏要求看图并补全具有创意且幽默的文字,对创造力要求极高。
- 完美匹配多模态LLM: 输入为图文,输出为文字,符合多模态LLM的输入输出格式。
- 丰富的数据资源: 日式冷吐槽游戏在互联网上热度高,拥有大量高质量的人类标注数据和带有ranking信息的点评数据,有助于构建数据集。
研究意义与未来展望
LoTbench的提出,为LLM创造力评估提供了一种可信且自动化的新范式。通过该范式,研究人员可以更有效地评估和提升LLM的创造力,从而推动人工智能在创意领域的应用。
研究团队表示,未来将进一步完善LoTbench,并探索更多评估LLM创造力的方法。他们希望这项研究能够激发更多关于LLM创造力的讨论和研究,为人工智能的发展注入新的活力。
参考文献
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models: https://arxiv.org/abs/2501.15147
- LoTbench项目主页: https://lotbench.github.io
- Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation (CVPR’24): [[原论文链接,如果已知]]
(本文由机器之心AIxiv专栏供稿,新华社记者编辑)
Views: 0