Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

最新消息最新消息
0

字节跳动联合北交大开源LatentSync:端到端唇形同步框架,让AI视频更逼真

北京,中国 – 在人工智能领域,视频生成技术的进步日新月异。近日,字节跳动与北京交通大学联合推出了一款名为LatentSync的开源框架,该框架专注于解决视频中唇形与音频同步的问题,为AI视频的逼真度带来了质的飞跃。这一突破性的技术不仅在学术界引起广泛关注,也预示着AI在影视后期制作、教育、广告等多个领域应用的巨大潜力。

打破传统:基于潜在扩散模型的创新

LatentSync的核心创新在于其采用的音频条件潜在扩散模型。与传统的像素空间扩散模型不同,LatentSync直接在潜在空间进行建模,避免了高分辨率视频生成过程中对硬件的过高要求。这种方法不仅提高了生成效率,还能够更好地捕捉音频与视觉之间的复杂关联,从而生成高质量的唇同步视频。

“传统的唇形同步技术往往需要中间的3D表示或2D特征点,这增加了处理的复杂性,”一位参与该项目的北京交通大学研究员表示,“LatentSync的端到端框架简化了这一过程,将音频特征提取、潜在表示生成、唇同步生成等步骤集成在一个统一的模型中,大大提高了效率和准确性。”

时间一致性:TREPA方法的关键

扩散模型在生成视频时,常常面临不同帧之间扩散过程不一致导致的时间一致性问题,这会导致视频出现闪烁现象。为了解决这一难题,LatentSync引入了Temporal REPresentation Alignment (TREPA) 方法。该方法利用大规模自监督视频模型VideoMAE-v2提取时间表示,通过计算生成帧和真实帧之间的时间表示距离,作为额外的损失函数,从而增强生成视频的时间一致性。

“TREPA方法的引入,是LatentSync能够生成流畅、自然的视频的关键,”一位字节跳动AI实验室的工程师解释道,“它确保了视频在时间维度上的连贯性,避免了传统方法中常见的画面抖动问题。”

SyncNet监督:确保唇形同步的准确性

为了确保生成的视频具有良好的唇形同步效果,LatentSync在训练过程中还采用了预训练的SyncNet进行监督。通过在像素空间添加SyncNet损失,模型能够更好地学习音频与唇部运动之间的对应关系,从而生成与音频完美匹配的唇部动作。

应用场景:潜力无限

LatentSync的开源,为各行各业带来了新的可能性:

  • 影视后期制作: 电影配音时,可以根据配音音频自动生成匹配的唇部动画,提高制作效率并保持角色形象连贯性。
  • 教育领域: 在线英语课中,教师可以将语音转换为唇同步视频,帮助学生更准确地学习发音。
  • 广告视频制作: 为虚拟代言人生成唇同步视频,让广告词表达更自然,增强广告吸引力。
  • 远程会议: 实时生成唇同步视频,解决网络延迟导致的音画不同步问题,提升沟通效果。
  • 游戏开发: 让游戏中的NPC在对话时唇部动作与语音同步,增强游戏沉浸感和角色互动体验。

开源与未来

LatentSync的开源,不仅展示了字节跳动和北京交通大学在人工智能领域的强大实力,也为全球的开发者和研究者提供了一个强大的工具。其项目地址已在GitHub上公开(https://github.com/bytedance/LatentSync),相关的技术论文也已发布在arXiv上(https://arxiv.org/pdf/2412.09262)。

随着技术的不断进步,我们有理由相信,LatentSync将在未来推动AI视频生成技术的进一步发展,为我们带来更加真实、自然的视听体验。

参考文献:

(本文由AI新闻记者撰写,力求客观准确,如有疏漏,敬请指正)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注