上海,2025年3月17日 – 近年来,随着大语言模型(LLM)技术的飞速发展,角色扮演 AI(Role-Playing Language Agents,RPLAs)作为其重要应用,正受到越来越多的关注。无论是情感陪伴、故事创作、游戏角色,还是数字分身,RPLAs 都需要精准捕捉和模拟特定角色的设定、个性和行为模式。然而,高质量数据集的匮乏和有效评估方法的缺失,一直是制约其发展的两大瓶颈。
近日,复旦大学与阶跃星辰联合发布了一项突破性研究成果——CoSER(Coordinating LLM-Based Persona Simulation of Established Roles)。该研究构建了一个包含当下最大的真实数据集、SoTA 开源模型和最深入的评估方法的完整框架,旨在高效构建和评估角色扮演 AI。
该研究由复旦大学博士生王鑫涛主导,他在肖仰华、汪卫教授的指导下,致力于探索用 AI 创造具有人格的数字生命。王鑫涛表示:“我们的研究寻求 AI 技术与人类情感需求的结合,希望能够为角色扮演 AI 的发展贡献一份力量。”
CoSER Dataset:前所未有的真实与全面
CoSER Dataset 从世界最知名的 771 本书中提取数据,构建了迄今为止最大、最真实、最丰富的角色扮演数据集,包含:
- 来自 771 本知名文学作品的 17,966 个角色
- 29,798 段书中的真实对话,而非由大模型生成
- 全面的数据类型:角色概述、对话(包含详细的上下文情景)、关键剧情的摘要和角色经历等
- 语言、动作和想法:除了语言的对白,对话中还包括角色的动作和想法
CoSER Dataset 的独特之处在于其真实性、全面性和多维表达。不同于以往数据集中大量使用的 LLM 生成的角色问答对,CoSER 数据集从经典文学作品中提取真实角色对话,在忠实刻画角色的同时,保留了真实对话的复杂性。此外,数据集不仅包含角色概述和对话,还包括剧情摘要、角色经历和对话背景等丰富内容,使角色表现更为立体。更值得一提的是,CoSER 将环境视为特殊角色,扩展了角色对话能表达的信息,使对话数据可以表示书中的环境反馈、大众角色反应等信息。
Given-Circumstance Acting:受斯坦尼斯拉夫斯基启发的训练与评估方法
该研究引入了给定情境表演(Given-Circumstance Acting,GCA)方法用于训练和评估 LLM 的角色扮演能力,这一方法受到了《演员的自我修养》的作者 – 斯坦尼斯拉夫斯基 – 的表演理论的启发。
在训练阶段,给定一段对话及其上下文情景,研究人员让模型每次扮演对话中的一个角色,并在相应的台词上进行训练。基于这一方法,他们训练了 CoSER 8B 和 CoSER 70B 两个模型,它们基于 LLaMA-3.1 构建,展现了真实、生动的角色表现能力,并在多项角色扮演评估上取得 SoTA 成绩。
在评估阶段,GCA 评估由两个步骤组成:
- 多智能体模拟(Multi-agent Simulation): 构建一个多智能体系统,让被评估模型依次扮演不同角色,在给定情境下进行模拟,获得一段由多个角色 AI 交互生成的对话。
- 基于惩罚的 LLM 评判(Penalty-based LLM Juding): 让 LLM 扮演评判者,使用详细评分标准(rubrics)和原始对话作为参考,按照 “采点扣分制” 识别明确的表演缺陷来评估模拟对话的质量。
开源共享,助力角色扮演 AI 发展
为了促进角色扮演 AI 在研究和应用中的发展,该研究的代码、数据集和模型已在 Github 和 Huggingface 上开源。
- CoSER 8B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-8B
- CoSER 70B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-70B
- CoSER Dataset: https://huggingface.co/datasets/Neph0s/CoSER
- CoSER Code: https://github.com/Neph0s/COSER
此外,研究团队还推出了一个在线体验平台,用户可以在平台上与自己喜欢的书中的角色进行互动:https://ch.rhineai.com/characters
CoSER 的发布,无疑为角色扮演 AI 的发展注入了新的活力。相信在不久的将来,我们将看到更多基于 CoSER 的创新应用,为人们带来更加丰富多彩的 AI 体验。
参考文献
- CoSER: Coordinating LLM-Based Persona Simulation of Established Roles. (2025). Retrieved from https://arxiv.org/abs/2502.09082
Views: 0