“`markdown
Soul App实时人像视频生成技术突破,论文获CVPR 2025顶会录用
北京 – 社交平台Soul App在人工智能领域取得一项重要突破。其关于实时人像视频生成的研究论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)近日被计算机视觉与模式识别国际会议(CVPR)2025 接收。这一成果标志着Soul App在多模态AI技术,特别是视觉层面的能力构建上取得了显著进展。
CVPR(Conference on Computer Vision and Pattern Recognition)是人工智能领域最具影响力的顶级学术会议之一,被中国计算机学会(CCF)评为A类国际学术会议。在谷歌学术指标2024年的全球最具影响力科学期刊/会议排名中,CVPR位列第二,仅次于《Nature》。本次CVPR 2025共收到13008篇投稿,仅有2878篇论文被录用,录用率仅为22.1%,竞争异常激烈。
Soul App团队在论文中提出了一个全新的自回归框架,专门用于实时音频驱动人像动画(Talking Head)。该框架旨在解决行业内视频画面生成耗时长的难题,同时确保生成的人物在说话时,头部和身体各部位的运动自然且逼真。
技术创新与突破
Soul App此次入选CVPR的论文,核心在于其提出的创新方法,旨在提高视频生成效率和生成效果的拟人性、自然度。该方案的关键在于解构diffusion-base的模型关键步骤,并使用LLM(大型语言模型)和1step-diffusion进行重构,融合视频模态,最终使Soul X大模型能够同时生成文字、语音和视频,成为一个统一的多模态模型。
具体来说,该方案将Talking Head任务分解为两个模块:
- FMLG(面部Motion生成): 基于自回归语言模型,利用大模型的强大学习能力和高效的多样性采样能力,生成准确且多样的面部Motion。
- ETM(高效身体Movement生成): 利用一步扩散,生成逼真的身体肌肉和饰品运动效果。
实验结果表明,与传统的扩散模型相比,该方案在视频生成效率上实现了大幅提升,并且在生成质量方面,尤其是在细微动作、面部身体动作协调度和自然度方面,均表现出优异的性能。
Soul App在AI领域的持续投入
Soul App自2016年上线以来,就积极探索AI技术在社交领域的应用。其推出的基于AI算法的灵犀引擎,重构了关系网络发现模式,受到了用户的广泛欢迎。2020年,Soul App启动了AIGC(AI Generated Content)技术研发工作,并在智能对话、语音、3D虚拟人等方面积累了前沿技术。
近年来,Soul App将重点聚焦于多模态方向。自2023年推出自研语言大模型Soul X后,陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等能力。目前,Soul AI大模型能力已整体升级为多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,旨在实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。
多模态交互的未来
Soul App CTO陶明在接受媒体采访时表示,团队关注视觉交互的逻辑在于,面对面的沟通是信息传播最快、最有效的方式。因此,在线上人机交互过程中,需要有类似的表达方式。此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。
Soul App认为,AI融入社交场景,不仅需要介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,还需要AI作为交互对象向个体提供情绪价值。这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,从而更接近真实的社交互动。
此次论文的成功入选CVPR 2025,无疑是对Soul App在AI领域,特别是多模态方向自研能力的有力认可。也预示着Soul App将在未来的社交领域,通过AI技术的不断创新,为用户带来更加丰富和真实的互动体验。
参考文献
- 机器之心. (2024, March 21). Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用. Retrieved from https://www.jiqizhixin.com/articles/2025-03-21-14
“`
Views: 0