华为复旦联手打造3D数字人框架EmoTalk3D

华为、复旦联合推出3D数字人框架 EmoTalk3D：赋予虚拟角色更丰富的情感表达

北京，2024年8月28日 – 华为诺亚方舟实验室、南京大学和复旦大学近日联合发布了3D数字人框架 EmoTalk3D，该框架能够合成具有丰富情感表达的3D会说话头像，为虚拟角色注入更生动、更人性化的灵魂。

EmoTalk3D 的核心技术在于其独特的“Speech-to-Geometry-to-Appearance”映射框架，能够将音频特征转化为动态的3D几何序列，最终合成逼真的3D头像外观。该框架能够捕捉和再现人类在说话时的唇部动作、面部表情，甚至是更微妙的情感细节，如皱纹和其他面部微动。

EmoTalk3D 的主要功能包括：

情感表达合成: EmoTalk3D 可以根据输入的音频信号合成具有相应情感表达的3D头像动画，包括喜悦、悲伤、愤怒等多种情感状态。
唇部同步: EmoTalk3D 能够实现高度准确的唇部运动与语音同步，确保3D头像在说话时唇部动作与实际发音相匹配。
多视角渲染: EmoTalk3D 支持从不同角度渲染3D头像，确保在不同视角下观看时都能保持高质量和一致性。
动态细节捕捉: EmoTalk3D 能捕捉并再现说话时的面部微表情和动态细节，如皱纹、微妙的表情变化等。
可控情感渲染: 用户可根据需要控制3D头像的情感表达，实现情感的实时调整和控制。
高保真度: 通过先进的渲染技术，EmoTalk3D 能生成高分辨率、高真实感的3D头像。

EmoTalk3D 的技术原理:

EmoTalk3D 的实现基于以下关键步骤：

数据集建立 (EmoTalk3D Dataset): 收集了多视角视频数据，包括情感标注和每帧的3D面部几何信息。数据集来源于多个受试者，每个受试者在不同情感状态下录制了多视角视频。
音频特征提取: 使用预训练的 HuBERT 模型作为音频编码器，将输入语音转换为音频特征。通过情感提取器从音频特征中提取情感标签。
Speech-to-Geometry Network (S2GNet): 将音频特征和情感标签作为输入，预测动态的 3D 点云序列。基于门控循环单元 (GRU) 作为核心架构，生成 4D 网格序列。
3D 几何到外观的映射 (Geometry-to-Appearance): 基于预测的 4D 点云，使用 Geometry-to-Appearance Network (G2ANet) 合成 3D 头像的外观。将外观分解为规范高斯 (静态外观)和动态高斯 (由面部运动引起的皱纹、阴影等)。
4D 高斯模型: 使用 3D 高斯 Splatting 技术来表示 3D 头像的外观。每个 3D 高斯由位置、尺度、旋转和透明度等参数化表示。
动态细节合成: 通过 FeatureNet 和 RotationNet 网络预测动态细节，如皱纹和微妙的表情变化。
头部完整性: 对于非面部区域 (如头发、颈部和肩部)，使用优化算法从均匀分布的点开始构建。
渲染模块: 将动态高斯和规范高斯融合，渲染出具有自由视角的 3D 头像动画。
情感控制: 通过情感标签的人工设置和时间序列的变化，控制生成头像的情感表达。

EmoTalk3D 的应用场景:

EmoTalk3D 在多个领域拥有广阔的应用前景，包括：

虚拟助手和客服: 作为智能客服或虚拟助手的角色，提供更加自然和情感丰富的交互体验。
电影和视频制作: 在电影、电视和视频游戏中生成逼真的角色和动画，提高视觉体验。
虚拟现实 (VR) 和增强现实 (AR): 在 VR 和 AR 应用中提供沉浸式体验，与用户进行更真实的互动。
社交媒体和直播: 用户可用 EmoTalk3D 创建和自定义自己的 3D 形象，在社交媒体平台或直播中。
广告和市场营销: 创建吸引人的 3D 角色，用于广告宣传或品牌推广。

EmoTalk3D 的发布标志着 3D 数字人技术取得了新的突破，将为虚拟角色赋予更丰富的情感表达，为用户带来更加生动、更具沉浸感的体验。未来，EmoTalk3D 有望在更多领域得到应用，推动虚拟现实、人工智能等领域的进一步发展。

【source】https://ai-bot.cn/emotalk3d/

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

华为复旦联手打造3D数字人框架EmoTalk3D

作者智能小编

华为、复旦联合推出3D数字人框架 EmoTalk3D：赋予虚拟角色更丰富的情感表达

相关文章

AI解锁500年圣殿，米开朗基罗杰作现世！

小米造车狂飙：10万辆下线，雷军学马斯克睡工厂！

Caiyun Technology Unveils First DCFormer-Based Generative AI Model “Caiyun Xiaomeng V3.5

发表回复取消回复

为您推荐

AI解锁500年圣殿，米开朗基罗杰作现世！

小米造车狂飙：10万辆下线，雷军学马斯克睡工厂！

Caiyun Technology Unveils First DCFormer-Based Generative AI Model “Caiyun Xiaomeng V3.5

彩云科技发布通用大模型云锦天章，DCFormer架构引领NLP新纪元！

作者智能小编

华为、复旦联合推出3D数字人框架 EmoTalk3D：赋予虚拟角色更丰富的情感表达

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复