Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714
0

北京时间2025年2月28日 – 在人工智能领域,大语言模型(LLM)正日益成为研究焦点。然而,与逻辑思维能力(如Chain-of-Thought)相比,LLM的创造力,或者说“跳跃式思维”(Leap-of-Thought)能力,长期以来缺乏深入的探讨和有效的评估。近日,一项由中山大学、哈佛大学、鹏城实验室、新加坡管理大学的研究团队联合进行的研究,为解决这一难题带来了新的突破。该研究提出了一种多轮交互的可信自动化创造力评估范式LoTbench,并揭示了不同LLM在创造力方面的显著差异:DeepSeek表现相对逊色,而Qwen系列则展现出接近人类顶尖水平的创造力。

这项研究成果已发表在IEEE TPAMI期刊上,论文题目为《A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models》。

创造力评估的困境与LoTbench的诞生

长期以来,LLM创造力评估面临着诸多挑战。传统的评估方法,如选择题或排序题,在考察逻辑思维方面有效,但难以准确衡量创造力。原因在于,这些方法侧重于判断LLM是否能识别创新内容,而非考察其生成创新内容的能力。此外,人工评估虽然准确,但成本高昂且难以持续;而LLM-as-a-judge的方法,其评估能力尚处于初级阶段,且稳定性不足。

为了克服这些困难,研究团队另辟蹊径,将创造力评估转化为衡量LLM产生高质量创新内容所需“代价”的问题。LoTbench范式应运而生,它通过多轮交互,考察LLM在给定条件下生成与人类高质量创新内容(HHCR)相似响应的能力。LLM仅需少量轮次即可生成HHCR,则表明其具有较强的创造力;反之,则表明其创造力不足。

LoTbench的具体流程

LoTbench的具体流程如下:

  1. 数据精选: 从日式冷吐槽游戏中精选出具有人类高质量创新内容(HHCR)的数据。
  2. 构建MLM任务: 要求LLM每一轮根据图文信息,生成Rt补全给定文字空缺。
  3. 相似性判断: 判断生成的Rt和R(即HHCR)是否具有“异曲同工之妙”(different approach but equally satisfactory outcome, DAESO)。
  4. 创造力评分: 若Rt与R相似,则根据生成轮数计算创造力分数;否则,进入下一轮生成。

日式冷吐槽:创造力测评的理想平台

研究团队选择日式冷吐槽游戏作为LLM创造力测评的平台,原因在于:

  • 高创造力要求: 这类游戏要求看图并补全具有创意且幽默的文字,对创造力要求极高。
  • 完美匹配多模态LLM: 输入为图文,输出为文字,符合多模态LLM的输入输出格式。
  • 丰富的数据资源: 日式冷吐槽游戏在互联网上热度高,拥有大量高质量的人类标注数据和带有ranking信息的点评数据,有助于构建数据集。

研究意义与未来展望

LoTbench的提出,为LLM创造力评估提供了一种可信且自动化的新范式。通过该范式,研究人员可以更有效地评估和提升LLM的创造力,从而推动人工智能在创意领域的应用。

研究团队表示,未来将进一步完善LoTbench,并探索更多评估LLM创造力的方法。他们希望这项研究能够激发更多关于LLM创造力的讨论和研究,为人工智能的发展注入新的活力。

参考文献

  • A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models: https://arxiv.org/abs/2501.15147
  • LoTbench项目主页: https://lotbench.github.io
  • Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation (CVPR’24): [[原论文链接,如果已知]]

(本文由机器之心AIxiv专栏供稿,新华社记者编辑)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注