大语言模型创造力大比拼：谁是真正创新之王？

北京时间2025年2月28日 – 在人工智能领域，大语言模型（LLM）正日益成为研究焦点。然而，与逻辑思维能力（如Chain-of-Thought）相比，LLM的创造力，或者说“跳跃式思维”（Leap-of-Thought）能力，长期以来缺乏深入的探讨和有效的评估。近日，一项由中山大学、哈佛大学、鹏城实验室、新加坡管理大学的研究团队联合进行的研究，为解决这一难题带来了新的突破。该研究提出了一种多轮交互的可信自动化创造力评估范式LoTbench，并揭示了不同LLM在创造力方面的显著差异：DeepSeek表现相对逊色，而Qwen系列则展现出接近人类顶尖水平的创造力。

这项研究成果已发表在IEEE TPAMI期刊上，论文题目为《A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models》。

创造力评估的困境与LoTbench的诞生

长期以来，LLM创造力评估面临着诸多挑战。传统的评估方法，如选择题或排序题，在考察逻辑思维方面有效，但难以准确衡量创造力。原因在于，这些方法侧重于判断LLM是否能识别创新内容，而非考察其生成创新内容的能力。此外，人工评估虽然准确，但成本高昂且难以持续；而LLM-as-a-judge的方法，其评估能力尚处于初级阶段，且稳定性不足。

为了克服这些困难，研究团队另辟蹊径，将创造力评估转化为衡量LLM产生高质量创新内容所需“代价”的问题。LoTbench范式应运而生，它通过多轮交互，考察LLM在给定条件下生成与人类高质量创新内容（HHCR）相似响应的能力。LLM仅需少量轮次即可生成HHCR，则表明其具有较强的创造力；反之，则表明其创造力不足。

LoTbench的具体流程

LoTbench的具体流程如下：

数据精选： 从日式冷吐槽游戏中精选出具有人类高质量创新内容（HHCR）的数据。
构建MLM任务： 要求LLM每一轮根据图文信息，生成Rt补全给定文字空缺。
相似性判断： 判断生成的Rt和R（即HHCR）是否具有“异曲同工之妙”（different approach but equally satisfactory outcome, DAESO）。
创造力评分： 若Rt与R相似，则根据生成轮数计算创造力分数；否则，进入下一轮生成。

日式冷吐槽：创造力测评的理想平台

研究团队选择日式冷吐槽游戏作为LLM创造力测评的平台，原因在于：

高创造力要求： 这类游戏要求看图并补全具有创意且幽默的文字，对创造力要求极高。
完美匹配多模态LLM： 输入为图文，输出为文字，符合多模态LLM的输入输出格式。
丰富的数据资源： 日式冷吐槽游戏在互联网上热度高，拥有大量高质量的人类标注数据和带有ranking信息的点评数据，有助于构建数据集。

研究意义与未来展望

LoTbench的提出，为LLM创造力评估提供了一种可信且自动化的新范式。通过该范式，研究人员可以更有效地评估和提升LLM的创造力，从而推动人工智能在创意领域的应用。

研究团队表示，未来将进一步完善LoTbench，并探索更多评估LLM创造力的方法。他们希望这项研究能够激发更多关于LLM创造力的讨论和研究，为人工智能的发展注入新的活力。

参考文献

A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models: https://arxiv.org/abs/2501.15147
LoTbench项目主页: https://lotbench.github.io
Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation (CVPR’24): [[原论文链接，如果已知]]

（本文由机器之心AIxiv专栏供稿，新华社记者编辑）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

大语言模型创造力大比拼：谁是真正创新之王？

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐