Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

“`markdown

Soul App实时人像视频生成技术突破,论文获CVPR 2025顶会录用

北京 – 社交平台Soul App在人工智能领域取得一项重要突破。其关于实时人像视频生成的研究论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)近日被计算机视觉与模式识别国际会议(CVPR)2025 接收。这一成果标志着Soul App在多模态AI技术,特别是视觉层面的能力构建上取得了显著进展。

CVPR(Conference on Computer Vision and Pattern Recognition)是人工智能领域最具影响力的顶级学术会议之一,被中国计算机学会(CCF)评为A类国际学术会议。在谷歌学术指标2024年的全球最具影响力科学期刊/会议排名中,CVPR位列第二,仅次于《Nature》。本次CVPR 2025共收到13008篇投稿,仅有2878篇论文被录用,录用率仅为22.1%,竞争异常激烈。

Soul App团队在论文中提出了一个全新的自回归框架,专门用于实时音频驱动人像动画(Talking Head)。该框架旨在解决行业内视频画面生成耗时长的难题,同时确保生成的人物在说话时,头部和身体各部位的运动自然且逼真。

技术创新与突破

Soul App此次入选CVPR的论文,核心在于其提出的创新方法,旨在提高视频生成效率和生成效果的拟人性、自然度。该方案的关键在于解构diffusion-base的模型关键步骤,并使用LLM(大型语言模型)和1step-diffusion进行重构,融合视频模态,最终使Soul X大模型能够同时生成文字、语音和视频,成为一个统一的多模态模型。

具体来说,该方案将Talking Head任务分解为两个模块:

  • FMLG(面部Motion生成): 基于自回归语言模型,利用大模型的强大学习能力和高效的多样性采样能力,生成准确且多样的面部Motion。
  • ETM(高效身体Movement生成): 利用一步扩散,生成逼真的身体肌肉和饰品运动效果。

实验结果表明,与传统的扩散模型相比,该方案在视频生成效率上实现了大幅提升,并且在生成质量方面,尤其是在细微动作、面部身体动作协调度和自然度方面,均表现出优异的性能。

Soul App在AI领域的持续投入

Soul App自2016年上线以来,就积极探索AI技术在社交领域的应用。其推出的基于AI算法的灵犀引擎,重构了关系网络发现模式,受到了用户的广泛欢迎。2020年,Soul App启动了AIGC(AI Generated Content)技术研发工作,并在智能对话、语音、3D虚拟人等方面积累了前沿技术。

近年来,Soul App将重点聚焦于多模态方向。自2023年推出自研语言大模型Soul X后,陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等能力。目前,Soul AI大模型能力已整体升级为多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,旨在实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

多模态交互的未来

Soul App CTO陶明在接受媒体采访时表示,团队关注视觉交互的逻辑在于,面对面的沟通是信息传播最快、最有效的方式。因此,在线上人机交互过程中,需要有类似的表达方式。此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。

Soul App认为,AI融入社交场景,不仅需要介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,还需要AI作为交互对象向个体提供情绪价值。这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,从而更接近真实的社交互动。

此次论文的成功入选CVPR 2025,无疑是对Soul App在AI领域,特别是多模态方向自研能力的有力认可。也预示着Soul App将在未来的社交领域,通过AI技术的不断创新,为用户带来更加丰富和真实的互动体验。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注