字节Loopy：音频驱动人像视频新突破！

作者智能小编

9 月 13, 2024 #loopy, #字节, #机器之心

90年代申花出租车司机夜晚在车内看文汇报

正文：

近日，字节跳动旗下智能创作数字人团队在人工智能领域取得重大突破，成功研发了音频驱动人像视频模型Loopy，以及半身人像版模型CyberHost。这两项研究成果一经发布，便在业界引起了广泛关注。

Loopy模型能够通过一张图片和一段音频生成逼真的肖像视频，其细节处理令人惊叹。Loopy采用了Diffusion视频生成框架，实现了音频和口型同步，并捕捉到了细微自然的表情动作，如抬眉、吸气、憋嘴停顿、叹气、肩膀运动等。此外，Loopy还能根据不同的图片风格，如古风画像、粘土风格、油画风格等，生成相应的人像视频。

Loopy技术方案的奥秘在于其独特的框架设计。团队引入了inter/intra-clip temporal layers模块，捕捉跨时间片段的时序信息，并设计了Temporal Segment Module来提升效果。同时，为了捕捉细腻的表情变化，团队还设计了一个名为audio to latents（A2L）的模块，增强了音频和头部运动之间的关联关系。

除了Loopy，字节跳动智能创作数字人团队还推出了CyberHost模型。这是首个采用端到端算法框架进行纯音频驱动的半身视频生成系统，将驱动范围从肖像扩大到了半身。CyberHost不仅表情自然、口型准确，还能生成和音频同步的手部动作，突破了视频生成技术中的难题。

CyberHost的成功得益于专门设计的Codebook Attention，强化了对人脸和手部等关键区域的结构先验学习。此外，团队还设计了一系列基于人体结构先验的训练策略，如Body Movement Map和Hand Clarity Score，以减少音频驱动下人体动作生成的不确定性。

字节跳动智能创作数字人团队在人工智能领域的创新突破，将为内容创作、互动体验等领域带来前所未有的变革。目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务，更多大模型算法相关岗位也在开放中。

未来，Loopy与CyberHost将在更多场景下发挥重要作用，为人工智能领域的发展注入新的活力。让我们共同期待这两项创新成果在更多领域的应用，为人类生活带来更多惊喜。

>>> Read more <<<