上海交大开源对口型说话视频生成框架AniTalker:让静态肖像“开口说话”
上海,2024年5月20日 – 上海交通大学X-LANCE实验室和思必驰AISpeech的研究人员近日联合发布了开源的对口型说话视频生成框架AniTalker。该框架能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频,为虚拟助手、客服、教育等领域带来新的可能性。
AniTalker的出现,意味着静态图像可以“开口说话”。用户只需提供一张静态人像和一段音频,AniTalker就能生成与音频内容同步的动画视频,人物的面部表情、头部动作、唇动等细节都十分逼真。
AniTalker的核心优势在于:
- 自监督学习策略: AniTalker通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作,无需大量人工标注数据,降低了训练成本。
- 通用运动表示和身份解耦: AniTalker利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时保证了生成视频的真实性和多样性。
- 扩散模型和方差适配器: AniTalker结合了扩散模型和方差适配器,能够生成多样化和可控制的面部动画,实现类似阿里EMO和腾讯AniPortrait的效果。
AniTalker的主要功能包括:
- 静态肖像动画化: 将任何单张人脸肖像转换成动态视频,人物能够进行说话和表情变化。
- 音频同步: 将输入的音频与人物的唇动和语音节奏同步,实现自然的对话效果。
- 面部动态捕捉: 模拟一系列复杂的面部表情和微妙的肌肉运动,使动画更加生动。
- 多样化动画生成: 利用扩散模型,生成具有随机变化的多样化面部动画,增加了生成内容的自然性和不可预测性。
- 实时面部动画控制: 用户可以通过控制信号实时指导动画的生成,包括头部姿势、面部表情和眼睛运动。
- 语音驱动的动画生成: 支持直接使用语音信号来生成动画,无需额外的视频输入。
- 长视频连续生成: 能够连续生成长时间的动画视频,适用于长时间的对话或演讲场景。
AniTalker的应用场景十分广泛:
- 虚拟助手和客服: 可以生成逼真的虚拟形象,为用户提供更人性化的服务体验。
- 教育领域: 可以将静态教材内容转化为生动的动画视频,提高学习兴趣和效率。
*娱乐和游戏: 可以用于制作更具互动性和沉浸感的虚拟角色。 - 视频会议和直播: 可以将静态头像转化为动态形象,提升视频会议和直播的趣味性和互动性。
AniTalker的开源发布,将推动对口型说话视频生成技术的进一步发展,为更多应用场景带来新的可能性。
相关链接:
- 官方项目主页: https://x-lance.github.io/AniTalker/
- GitHub源码库: https://github.com/X-LANCE/AniTalker
- arXiv研究论文: https://arxiv.org/abs/2405.03121
结语:
AniTalker的出现,标志着对口型说话视频生成技术迈上了新的台阶。随着技术的不断发展,相信未来将会有更多更逼真、更智能的动画生成工具出现,为我们的生活带来更多便利和乐趣。
【source】https://ai-bot.cn/anitalker/
Views: 1