周四. 1 月 9th, 2025

字节联手北交大，开源端到端唇形同步框架

作者智能小编

1 月 7, 2025 #唇形, #字节, #每日AI快讯

字节跳动联合北交大开源 LatentSync：端到端唇形同步技术突破，让虚拟人物“开口说话”更自然

北京—— 在人工智能技术日新月异的今天，字节跳动与北京交通大学联合推出了一项名为 LatentSync 的开源项目，再次引发了业界对 AI 视频生成领域的关注。这项端到端的唇形同步框架，基于音频条件的潜在扩散模型，无需任何中间的 3D 表示或 2D 特征点，直接生成与音频匹配的逼真唇部运动，为虚拟人物的“开口说话”带来了革命性的突破。

打破传统，直击痛点

长期以来，唇形同步一直是视频制作领域的一大挑战。传统的唇形同步方法往往依赖于复杂的 3D 建模或 2D 特征点跟踪，不仅耗时耗力，而且难以捕捉细微的表情变化，导致生成的人物说话时显得生硬不自然。LatentSync 的出现，彻底颠覆了这一传统模式。

LatentSync 的核心在于其创新的音频条件潜在扩散模型。该模型直接在潜在空间进行建模，避免了在像素空间进行扩散带来的高硬件要求，同时更好地捕捉了音频与视觉之间的复杂关联。这意味着，LatentSync 能够以更高效的方式生成高质量的唇同步视频，并且能够捕捉到与情感语调相关的细微表情，让人物的说话更加自然生动。

时间一致性难题的攻克

扩散模型在不同帧间扩散过程的不一致性，是导致生成视频出现时间不连贯、闪烁现象的常见问题。为了解决这一难题，LatentSync 引入了 Temporal REPresentation Alignment (TREPA) 方法。TREPA 利用大规模自监督视频模型 VideoMAE-v2 提取时间表示，通过计算生成连续帧和真实连续帧的时间表示之间的距离，作为额外的损失函数，从而增强生成视频的时间一致性。这一创新方法，显著减少了视频闪烁现象，让视频播放更加流畅。

此外，LatentSync 还采用了 SyncNet 监督机制。通过预训练的 SyncNet 对生成的视频进行监督，确保生成的视频具有良好的唇同步效果。在像素空间添加 SyncNet 损失，让模型更好地学习音频与唇部运动之间的对应关系，进一步提升了唇形同步的准确性。

应用场景广泛，未来可期

LatentSync 的开源，无疑将为各行各业带来巨大的机遇。其广泛的应用场景包括：

影视后期制作： 在电影配音时，根据配音音频自动生成匹配的唇部动画，提高制作效率并保持角色形象的连贯性。
教育领域： 在线英语课中，教师将语音转换为唇同步视频，帮助学生更准确地学习发音。
广告视频制作： 为虚拟代言人生成唇同步视频，让广告词表达更自然，增强广告吸引力。
远程会议： 跨国远程会议中实时生成唇同步视频，解决网络延迟导致的音画不同步问题，提升沟通效果。
游戏开发： 在 RPG 游戏中，让 NPC 在对话时唇部动作与语音同步，增强游戏沉浸感和角色互动体验。

技术细节深入解析

LatentSync 的技术原理可以概括为以下几点：

音频条件潜在扩散模型： 以音频为条件，在潜在空间直接建模，避免了像素空间扩散的计算负担。
端到端框架： 将音频特征提取、潜在表示生成、唇同步生成等过程集成在一个统一的模型中，简化中间步骤，提高生成效率和准确性。
Temporal REPresentation Alignment (TREPA)： 利用大规模自监督视频模型提取时间表示，增强生成视频的时间一致性。
SyncNet 监督： 利用预训练的 SyncNet 对生成的视频进行监督，确保唇形同步的准确性。

开源精神，共同进步

字节跳动和北京交通大学选择开源 LatentSync，体现了其开放合作、共同进步的理念。这一举措将促进 AI 视频生成领域的技术发展，为更多开发者和研究人员提供宝贵的资源。

项目地址：

GitHub 仓库：https://github.com/bytedance/LatentSync
arXiv 技术论文：https://arxiv.org/pdf/2412.09262

结语

LatentSync 的发布，标志着 AI 视频生成技术又迈出了重要一步。它不仅解决了传统唇形同步方法的痛点，还为未来的虚拟人物交互提供了新的可能性。我们有理由相信，随着技术的不断发展，虚拟人物将更加逼真，更加智能，为人类的生活带来更多便利和乐趣。

参考文献

LatentSync GitHub 仓库: https://github.com/bytedance/LatentSync
LatentSync arXiv 技术论文: https://arxiv.org/pdf/2412.09262
AI工具集相关文章：https://www.ai-tool.cn/ai-project/latentsync-bytedance-bjt

（注：以上新闻稿为原创，请勿直接复制粘贴，引用请注明出处）

>>> Read more <<<

Views: 0

相关文章

千企爆品涌现，智能引爆CES云展

1 月 9, 2025 智能小编

Tencent Dominates Global Mobile Game Revenue Chart; MiHoYo Misses Top 10

1 月 9, 2025 智能小编

China’s Music Streaming Battle Tencent NetEase and Qishui Vie for Dominance

1 月 9, 2025 智能小编

发表回复取消回复

图库

90年代申花出租车司机夜晚在车内看文汇报

黄山的油菜花

90年代的黄河路

shanghai

上海的陆家嘴

上海的陆家嘴

在上海浦东滨江公园观赏外滩建筑群-20240824

上海枫泾古镇一角_20240824

上海宝山炮台湿地公园的蓝天白云

为您推荐

千企爆品涌现，智能引爆CES云展

2025年1月9日

Tencent Dominates Global Mobile Game Revenue Chart; MiHoYo Misses Top 10

2025年1月9日

China’s Music Streaming Battle Tencent NetEase and Qishui Vie for Dominance

2025年1月9日

Altman Family Feud Sister Alleges Abuse Inheritance Concealment; Kin Deny Claims

2025年1月9日