Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

[北京/纽约,2025年4月7日] 近日,由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成的一项研究成果——MoCha,引发了人工智能和影视制作领域的广泛关注。这项技术首次实现了基于语音和文本输入,直接生成完整角色的对话视频,无需任何辅助信号,为自动化叙事视频生成提供了全新的解决方案。该研究在X平台上的相关讨论已获得超过百万的浏览量,预示着AI驱动电影叙事时代的到来。

视频生成技术近年来在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。 现有方法多聚焦于“Talking Head”场景,仅生成面部区域,且高度依赖辅助条件(如首帧图像或精确关键点),导致生成内容在动作幅度与连贯性方面受限,难以展现自然流畅的全身动态与丰富的对话场景。此外,已有方法通常仅支持单角色说话,无法满足多角色对话与交互的生成需求。

MoCha的出现,正是为了解决这些难题。它面向角色近景至中景的全身区域,支持一个或多个人物在多轮对话场景中的动态交互。

MoCha的核心技术亮点包括:

  • 端到端训练,无需辅助条件: MoCha实现了完全基于语音与文本的端到端训练,无需任何辅助条件,简化了模型架构,同时显著提升了动作多样性与泛化能力。
  • Speech-Video Window Attention 机制: 通过局部时间条件建模有效对齐语音与视频输入,显著提升了唇动同步准确率与语音 – 视频对齐效果。
  • 联合语音 – 文本训练策略: 充分利用语音标注与文本标注的视频数据进行协同训练,有效提升了模型在多样化角色动作下的泛化能力,同时实现了基于自然语言提示的通用可控性。
  • 多角色对话生成与角色标签设计: 首次实现了多角色动态对话生成,能够生成连贯、具备镜头切换与剧情连贯性的多轮对话视频。研究团队设计了结构化提示模板,明确指定对话片段数量,并引入角色描述与标签,通过角色标签简化提示,同时保证对话清晰可控。

MoCha的潜在应用场景广泛,包括:

  • 自动化电影制作: 降低电影制作成本,提高制作效率。
  • 动画创作: 快速生成动画角色对话,提升动画制作效率。
  • 虚拟现实/增强现实: 创建更具沉浸感的虚拟角色交互体验。
  • 教育培训: 生成互动式教学视频,提升学习效果。

研究团队通过大量定性与定量实验,包括用户偏好调研与基准对比,验证了MoCha在真实感、表现力、可控性与泛化性方面的领先性能,为AI驱动的电影叙事生成树立了新标杆。

滑铁卢大学陈文虎教授表示:“MoCha的出现,是AI技术在影视制作领域的一次重要突破。它不仅能够生成逼真的角色对话视频,还能够根据文本提示控制角色的情绪和动作,为电影叙事带来了更多的可能性。”

Meta GenAI方面也表示,将继续与学术界合作,推动AI技术在内容创作领域的应用,为用户带来更丰富、更智能的体验。

相关链接:

MoCha的发布,无疑为影视行业带来了新的希望,预示着一个由AI驱动的自动化电影生成时代的到来。随着技术的不断发展,我们有理由相信,未来的电影制作将更加高效、便捷,充满无限可能。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注