腾讯推出多模态故事生成模型 SEED-Story,赋能创意写作与内容创作
腾讯联合香港科技大学、香港中文大学推出多模态故事生成模型 SEED-Story,该模型能够根据给定的起始图像和文本生成包含连贯叙事文本和风格一致的图像的长故事,为创意写作、教育、娱乐、广告和电影等领域提供新的可能性。
SEED-Story 基于多模态大语言模型 (MLLM),能够预测文本和视觉 token,并通过视觉 de-tokenizer 生成风格一致的图像。该模型引入了多模态注意力机制,支持生成长达 25 个序列的连贯故事。此外,SEED-Story 还提供了 StoryStream,一个大规模高分辨率数据集,用于模型训练和评估。
SEED-Story 的主要功能包括:
- 多模态故事生成: SEED-Story 能根据给定的起始图像和文本生成包含连贯叙事文本和风格一致的图像的长故事。
- 多模态注意力汇聚机制: SEED-Story 提出了一种多模态注意力汇聚机制,以高效自回归的方式生成故事,可以生成长达 25序列的故事。
- 大规模数据集: SEED-Story 发布了一个名为 StoryStream 的大规模、高分辨率数据集,用于训练模型并从不同方面定量评估多模态故事生成任务。
- 故事指令调整: 在故事生成的过程中,SEED-Story 通过指令调整过程,对模型进行微调,可以预测故事的下一个图像和下一句文本。
- 可视化和交互: SEED-Story 还提供了可视化比较,展示了生成的图像与其他基线模型相比具有更高的质量和更好的一致性。
SEED-Story 的技术原理主要基于以下几个方面:
- 多模态大语言模型 (MLLM): 利用大型语言模型来理解、生成和预测文本和视觉标记。这种模型能够处理和生成文本数据,同时理解和生成视觉内容。
- 文本和视觉标记预测: SEED-Story 模型能够预测文本标记(文本中的元素或单词)和视觉标记(图像中的元素)。
- 视觉 de-tokenizer: 将语言模型生成的文本和视觉标记转换为图像,通过视觉 de-tokenizer 生成具有一致性和风格的图像。
- 多模态注意力机制: 引入多模态注意力机制,使模型在生成故事时能够关注文本和图像之间的相互关系。这种机制允许模型更有效地处理长序列的生成任务。
- 自回归生成: 模型采用自回归方式生成故事,即每个新生成的标记依赖于之前生成的所有标记,以保持故事的连贯性。
- 长序列生成能力: 通过多模态注意力机制,SEED-Story 能够生成比训练序列更长的故事序列。
- StoryStream 数据集: 提供一个大规模的高分辨率数据集,用于训练模型并评估多模态故事生成任务。数据集包含视觉上引人入胜的高分辨率图像和详细的叙述文本。
SEED-Story 的应用场景十分广泛,包括:
- 创意写作辅助: 帮助作家和内容创作者生成故事大纲、角色描述和情节发展,激发创意灵感。
- 教育和学习: 作为教学工具,帮助学生理解故事叙述结构,提高写作和创意思维能力。
- 娱乐和游戏开发: 在视频游戏中生成动态故事线和角色背景,提供沉浸式体验。
- 广告和营销: 快速生成吸引人的广告故事或营销材料,提高广告内容的吸引力和个性化。
- 电影和动画制作: 辅助剧本创作,生成角色对话和场景描述,加速制作流程。
SEED-Story 的推出标志着多模态故事生成技术取得了新的突破,为创意写作和内容创作领域带来了新的可能性。相信未来,随着技术的不断发展,SEED-Story 将在更多领域发挥重要作用,为人类创造更丰富多彩的文化体验。
项目地址:
- GitHub 仓库:https://github.com/TencentARC/SEED-Story
- HuggingFace 模型库:https://huggingface.co/TencentARC/SEED-Story
- arXiv 技术论文:https://arxiv.org/abs/2407.08683
【source】https://ai-bot.cn/seed-story/
Views: 1