港科大、腾讯、清华联手发布ACTalker视频扩散框架

香港，中国香港 – 在人工智能驱动的虚拟人技术领域，香港科技大学联合腾讯和清华大学，近日推出了一项突破性研究成果——ACTalker，一个端到端的视频扩散框架，旨在生成高度逼真的说话人头部视频。该框架的发布，预示着虚拟主播、远程会议、在线教育等多个领域将迎来更具沉浸感和互动性的用户体验。

ACTalker的核心优势在于其多信号控制能力，它不仅支持传统的音频驱动，还能整合面部表情等多种信号，从而生成更加自然和协调的视频。这种多模态融合的能力，得益于其独特的并行Mamba结构，该结构允许不同驱动信号独立控制面部区域，避免了信号间的冲突，确保了视频在时间和空间上的连贯性。

技术原理：并行Mamba结构与掩码丢弃策略

ACTalker的技术创新主要体现在以下几个方面：

并行Mamba结构： 框架采用并行Mamba结构，包含多个分支，每个分支利用单独的驱动信号（如音频、表情等）来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程，互不干扰，实现多信号控制。
门控机制： 在所有分支中应用了门控机制，在训练时随机开启或关闭，在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式，支持在不同情况下选择使用单一信号或多种信号进行驱动。
掩码丢弃策略（Mask-Drop）： ACTalker 引入了掩码丢弃策略，支持每个驱动信号独立控制其对应的面部区域。在训练过程中，策略通过随机丢弃与控制区域无关的特征标记，增强驱动信号的有效性，提高生成内容的质量，防止控制冲突。
状态空间建模（SSM）： 为了确保受控视频在时间和空间上的自然协调，ACTalker 采用了状态空间建模（SSM）。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记，实现自然的面部动作协调。

研究团队通过在CelebV-HQ数据集上的实验验证了ACTalker的卓越性能。其Sync-C和Sync-D分数分别达到5.317和7.869，FVD-Inc分数为232.374，这些数据表明ACTalker在音频同步和视频质量方面均表现出色。

应用前景：从虚拟主播到远程协作

ACTalker的应用场景十分广泛，涵盖了多个领域：

虚拟主播： ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频，使虚拟主播更加生动逼真，更好地与观众互动，提升观众的观看体验。
远程会议： 在远程会议中，ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题，能让参会者在视频信号不佳时，通过音频和表情信号生成自然的面部视频，增强远程交流的真实感。
在线教育： 在线教育场景中，教师可以用 ACTalker 生成自然的说话头视频，通过音频和表情信号的控制，使教学视频更加生动有趣，吸引学生的注意力，提高教学效果。
虚拟现实与增强现实： 在虚拟现实（VR）和增强现实（AR）应用中，ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。
娱乐与游戏： 在娱乐和游戏领域，ACTalker 可以为角色生成自然的说话头视频，增强角色的表现力和代入感。

开源共享：推动AI技术发展

为了促进该技术的进一步发展和应用，研究团队已将ACTalker的项目代码、模型和相关资源开源，并在GitHub和Hugging Face等平台上提供。这无疑将加速AI社区对虚拟人技术的探索和创新。

项目地址：

ACTalker的发布，不仅代表了AI技术在虚拟人领域的又一次飞跃，也为未来的虚拟交互体验带来了更多可能性。随着技术的不断成熟和应用场景的拓展，我们有理由期待一个更加智能、生动和人性化的数字世界。