微软等推出多智能体框架Mora,可生成12秒高质量视频
北京时间2024年3月28日– 来自微软和理海大学的研究人员近日联合发布了一个名为Mora的多智能体(AI Agents)框架,旨在模拟并扩展OpenAI的Sora视频生成模型,实现更强大的视频生成能力。
Mora的核心在于通过多个视觉智能体的协作来生成高质量的视频内容。它将复杂的视频生成过程分解为多个子任务,并为每个子任务分配一个专门的智能体,从而实现各种视频生成功能。
Mora的主要功能包括:
- 文本到视频生成: Mora可以根据用户提供的文本描述自动生成相应的视频内容,适用于从简单的场景描述到复杂故事情节的视频创作。
- 图像到视频生成: 除了直接从文本生成视频,Mora还能够结合用户提供的初始图像和文本提示,生成与之相匹配的视频序列,增强内容的丰富性和细节。
- 扩展生成视频: Mora不仅可以从头开始生成视频,还能够对现有的视频内容进行扩展和编辑,增加新的元素或延长视频的持续时间。
- 视频到视频编辑: Mora具备高级编辑功能,能够根据用户的文本指令对视频进行编辑,如改变场景、调整对象属性或添加新元素。
- 连接视频: Mora能够将两个或多个视频片段无缝连接起来,创造出流畅的过渡效果,适用于制作视频合集或剪辑。
- 模拟数字世界: Mora还能够创建和模拟数字世界,可根据文本描述创造出具有数字世界风格的视频序列,如游戏场景或虚拟环境。
Mora的工作原理基于一个多智能体框架,该框架通过协同多个专门化的AI智能体来完成视频生成任务。 每个智能体都负责处理特定的子任务,这些子任务共同构成了完整的视频生成流程。
Mora的工作流程主要分为以下步骤:
- 任务分解: Mora将复杂的视频生成任务分解为多个子任务,每个子任务都由一个专门的智能体来处理。
- 智能体角色定义: Mora定义了以下五种基本角色的智能体:
- 提示选择与生成智能体:使用大型语言模型(如GPT-4或Llama)来优化和选择文本提示,以提高生成图像的相关性和质量。
- 文本到图像生成智能体:将文本提示转换为高质量的初始图像。
- 图像到图像生成智能体:根据文本指令修改给定的源图像。
- 图像到视频生成智能体:将静态图像转换成动态视频序列。
- 视频连接智能体:基于两个输入视频创建平滑过渡的视频。
- 工作流程: Mora根据任务需求,自动组织智能体按照特定的顺序执行子任务。例如,文本到视频的生成任务可能包括以下步骤:
- 首先,提示选择与生成智能体处理文本提示。
- 接着,文本到图像生成智能体根据优化后的文本提示生成初始图像。
- 然后,图像到视频生成智能体将初始图像转换成视频序列。
- 最后,如果需要,视频连接智能体可以将多个视频片段连接成一个连贯的视频。
- 多智能体协作: 智能体之间通过预定义的接口和协议进行通信和协作,确保整个视频生成过程的连贯性和一致性。
- 生成与评估: 每个智能体完成其子任务后,会将结果传递给下一个智能体,直至完成整个视频生成流程。生成的视频可以根据预定义的评估标准进行质量评估。
- 迭代与优化: Mora框架允许通过迭代和优化来改进视频生成的质量。智能体可以根据反馈调整其参数,以提高视频的质量和效率。
Mora的优势在于其能够生成高质量的12秒视频,并具备多种功能,如文本到视频、图像到视频、视频编辑等。 然而,Mora在生成包含大量物体运动的场景时,与Sora相比存在性能差距,并且生成超过12秒的视频会导致视频质量下降。
Mora的发布标志着视频生成领域取得了新的进展,为未来的视频创作提供了新的可能性。 研究人员表示,他们将继续改进Mora,使其能够生成更长、更复杂、更高质量的视频内容。
相关链接:
- GitHub地址:https://github.com/lichao-sun/Mora(源码和模型待开源)
- arXiv研究论文:http://arxiv.org/abs/2403.13248
【source】https://ai-bot.cn/mora-video-generation-framework/
Views: 0