[北京/纽约,2025年4月7日] 近日,由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成的一项研究成果——MoCha,引发了人工智能和影视制作领域的广泛关注。这项技术首次实现了基于语音和文本输入,直接生成完整角色的对话视频,无需任何辅助信号,为自动化叙事视频生成提供了全新的解决方案。该研究在X平台上的相关讨论已获得超过百万的浏览量,预示着AI驱动电影叙事时代的到来。
视频生成技术近年来在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。 现有方法多聚焦于“Talking Head”场景,仅生成面部区域,且高度依赖辅助条件(如首帧图像或精确关键点),导致生成内容在动作幅度与连贯性方面受限,难以展现自然流畅的全身动态与丰富的对话场景。此外,已有方法通常仅支持单角色说话,无法满足多角色对话与交互的生成需求。
MoCha的出现,正是为了解决这些难题。它面向角色近景至中景的全身区域,支持一个或多个人物在多轮对话场景中的动态交互。
MoCha的核心技术亮点包括:
- 端到端训练,无需辅助条件: MoCha实现了完全基于语音与文本的端到端训练,无需任何辅助条件,简化了模型架构,同时显著提升了动作多样性与泛化能力。
- Speech-Video Window Attention 机制: 通过局部时间条件建模有效对齐语音与视频输入,显著提升了唇动同步准确率与语音 – 视频对齐效果。
- 联合语音 – 文本训练策略: 充分利用语音标注与文本标注的视频数据进行协同训练,有效提升了模型在多样化角色动作下的泛化能力,同时实现了基于自然语言提示的通用可控性。
- 多角色对话生成与角色标签设计: 首次实现了多角色动态对话生成,能够生成连贯、具备镜头切换与剧情连贯性的多轮对话视频。研究团队设计了结构化提示模板,明确指定对话片段数量,并引入角色描述与标签,通过角色标签简化提示,同时保证对话清晰可控。
MoCha的潜在应用场景广泛,包括:
- 自动化电影制作: 降低电影制作成本,提高制作效率。
- 动画创作: 快速生成动画角色对话,提升动画制作效率。
- 虚拟现实/增强现实: 创建更具沉浸感的虚拟角色交互体验。
- 教育培训: 生成互动式教学视频,提升学习效果。
研究团队通过大量定性与定量实验,包括用户偏好调研与基准对比,验证了MoCha在真实感、表现力、可控性与泛化性方面的领先性能,为AI驱动的电影叙事生成树立了新标杆。
滑铁卢大学陈文虎教授表示:“MoCha的出现,是AI技术在影视制作领域的一次重要突破。它不仅能够生成逼真的角色对话视频,还能够根据文本提示控制角色的情绪和动作,为电影叙事带来了更多的可能性。”
Meta GenAI方面也表示,将继续与学术界合作,推动AI技术在内容创作领域的应用,为用户带来更丰富、更智能的体验。
相关链接:
- 论文链接:https://arxiv.org/pdf/2503.23307
- Hugging face 论文地址:https://huggingface.co/papers/2503.23307
- 项目地址:https://congwei1230.github.io/MoCha/
MoCha的发布,无疑为影视行业带来了新的希望,预示着一个由AI驱动的自动化电影生成时代的到来。随着技术的不断发展,我们有理由相信,未来的电影制作将更加高效、便捷,充满无限可能。
Views: 0