Soul App人像视频技术，CVPR2025获认可

“`markdown

Soul App实时人像视频生成技术突破，论文获CVPR 2025顶会录用

北京 – 社交平台Soul App在人工智能领域取得一项重要突破。其关于实时人像视频生成的研究论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》（《基于自回归动作生成的实时流式音频驱动人像动画系统》）近日被计算机视觉与模式识别国际会议（CVPR）2025 接收。这一成果标志着Soul App在多模态AI技术，特别是视觉层面的能力构建上取得了显著进展。

CVPR（Conference on Computer Vision and Pattern Recognition）是人工智能领域最具影响力的顶级学术会议之一，被中国计算机学会（CCF）评为A类国际学术会议。在谷歌学术指标2024年的全球最具影响力科学期刊/会议排名中，CVPR位列第二，仅次于《Nature》。本次CVPR 2025共收到13008篇投稿，仅有2878篇论文被录用，录用率仅为22.1%，竞争异常激烈。

Soul App团队在论文中提出了一个全新的自回归框架，专门用于实时音频驱动人像动画（Talking Head）。该框架旨在解决行业内视频画面生成耗时长的难题，同时确保生成的人物在说话时，头部和身体各部位的运动自然且逼真。

技术创新与突破

Soul App此次入选CVPR的论文，核心在于其提出的创新方法，旨在提高视频生成效率和生成效果的拟人性、自然度。该方案的关键在于解构diffusion-base的模型关键步骤，并使用LLM（大型语言模型）和1step-diffusion进行重构，融合视频模态，最终使Soul X大模型能够同时生成文字、语音和视频，成为一个统一的多模态模型。

具体来说，该方案将Talking Head任务分解为两个模块：

FMLG（面部Motion生成）： 基于自回归语言模型，利用大模型的强大学习能力和高效的多样性采样能力，生成准确且多样的面部Motion。
ETM（高效身体Movement生成）： 利用一步扩散，生成逼真的身体肌肉和饰品运动效果。

实验结果表明，与传统的扩散模型相比，该方案在视频生成效率上实现了大幅提升，并且在生成质量方面，尤其是在细微动作、面部身体动作协调度和自然度方面，均表现出优异的性能。

Soul App在AI领域的持续投入

Soul App自2016年上线以来，就积极探索AI技术在社交领域的应用。其推出的基于AI算法的灵犀引擎，重构了关系网络发现模式，受到了用户的广泛欢迎。2020年，Soul App启动了AIGC（AI Generated Content）技术研发工作，并在智能对话、语音、3D虚拟人等方面积累了前沿技术。

近年来，Soul App将重点聚焦于多模态方向。自2023年推出自研语言大模型Soul X后，陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等能力。目前，Soul AI大模型能力已整体升级为多模态端到端大模型，支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性，旨在实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

多模态交互的未来

Soul App CTO陶明在接受媒体采访时表示，团队关注视觉交互的逻辑在于，面对面的沟通是信息传播最快、最有效的方式。因此，在线上人机交互过程中，需要有类似的表达方式。此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。

Soul App认为，AI融入社交场景，不仅需要介入内容表达以及关系的发现、建立、沉淀等环节，提高社交效率和社交体验，还需要AI作为交互对象向个体提供情绪价值。这要求团队必须加快提升AI的感知能力和交互能力，即需要在语音、视觉、NLP的融合上下功夫，让用户能实时与具备形象、表情、记忆的 AI 多模态交互，从而更接近真实的社交互动。

此次论文的成功入选CVPR 2025，无疑是对Soul App在AI领域，特别是多模态方向自研能力的有力认可。也预示着Soul App将在未来的社交领域，通过AI技术的不断创新，为用户带来更加丰富和真实的互动体验。

参考文献

机器之心. (2024, March 21). Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用. Retrieved from https://www.jiqizhixin.com/articles/2025-03-21-14
“`

>>> Read more <<<

Soul App人像视频技术，CVPR2025获认可

作者智能小编

Soul App实时人像视频生成技术突破，论文获CVPR 2025顶会录用

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

DeepSeek-R1后推理模型井喷：14篇论文揭示新纪元

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

作者智能小编

Soul App实时人像视频生成技术突破，论文获CVPR 2025顶会录用

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复